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Prefacio 


Este libro se planeó como una introducción a la teoría de la probabilidad y a la infe- 
rencia estadistica, para toda persona interesada en las disciplinas aplicadas; econo- 
mía y finanzas, ingeniería y ciencias físicas y de la vida. No es necesario ningún co- 
nocimiento previo de probabilidad y estadística, aunque se espera que el lector se 
encuentre familiarizado con los fundamentos del cálculo diferencial e integral. El 
libro hace hincapié en las aplicaciones. El rigor matemático se emplea únicamente 
con el fin de exponer las bases de la probabilidad y de la estadística, lo que, en opi- 
nión del autor, es un ingrediente necesario para la aplicación efectiva de los méto- 
dos. El texto intenta proporcionar al estudiante un conocimiento que vaya más allá 
de lo superficial, sin abrumarlo con teoría excesiva. En este sentido, la obra brinda 
la oportunidad de reforzar el *““porqué””, además de presentarle el *““cómo”” de la 
aplicación. A 

A través del texto, cada concepto o método se ilustra con ejemplos reales que se 
expresan de manera que el lector pueda obtener una comprensión intuitiva del con- 
cepto. La mayor parte del desarrollo de la inferencia estadística se fundamenta en el 
punto de vista de la teoría del muestreo. También se explora el enfoque bayesiano 
para dar la perspectiva adecuada. Asimismo, se estudian las suposiciones de los méto- 
dos estadísticos y se dan respuestas a preguntas del tipo *“qué pasa si...” Además, en 
muchos ejemplos se emplearon paquetes de programas para computadora y técnicas 
de simulación, con el propósito de ilustrar y reforzar los puntos presentados. 

El material que abarca el libro demuestra ser suficiente para realizar un curso de 
dos semestres sobre probabilidad y métodos estadísticos. Por otra parte, es posible re- 
ordenar el material y así ofrecer variedad de cursos, como un curso de un semestre 
sobre distribuciones de probabilidad y sus aplicaciones, en el que se empleen los ca- 
pítulos 1 a 7; un curso de dos trimestres sobre los fundamentos de la probabilidad y 
de los métodos estadísticos, con los capítulos 1 a 10; o un curso en análisis de varian- 
za y métodos de regresión, con los capítulos 9, 12, 13 y 14. El alcance de los temas 
que se tratan es amplio, extenso y proporcionan al profesor'la oportunidad de recal- 
car ciertos temas u omitir otros: Que el libro pueda emplearse a nivel licenciatura o a 
nivel de graduados, depende tanto de las necesidades particulares como de los cono- 
cimientos previos de los lectores. 

Después de un análisis razonablemente completo sobre la estadística descrip- 
tiva (Cap. 1), el libro está dividido en probabilidad (Caps. 2-7) y métodos esta- 
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dísticos (Caps. 8-15). En los capítulos 2 y 3 se presentan los conceptos básicos de 
probabilidad, variable aleatoria y distribución de probabilidad. Los capítulos 4 y 5 
contienen una exposición bastante completa de las distribuciones de probabilidad 
discretas y continuas, asi como sus aplicaciones. En estos capítulos se investigan, 
comparan y contrastan propiedades de distribuciones como la binomial, de Poisson, 
normal, beta, gama y de Weibull, entre otras, proporcionando áreas de aplicación 
para cada una. Dado el creciente papel de las computadoras y las técnicas de simula- 
ción, se dedica una sección del capítulo 5 a la valoración de varios métodos de gene- 
ración de valores aleatorios, en cada una de las distribuciones estudiadas. En el 
capítulo 6 se exponen las distribuciones de probabilidad conjunta y condicional. En 
este contexto, se introducen los conceptos de distribuciones a priori y a posteriori, 
para el punto de vista bayesiano. 

El capítulo siete funciona como transición entre la probabilidad y la inferencia 
estadística. En éste se plantean los importantes conceptos de muestra aleatoria y dis- 
tribución de muestreo. En el capítulo 8 se presentan los métodos de estimación, 
tanto puntual como de intervalo. También se estudian los límites de tolerancia inde- 
pendientes de la distribución y aquéllos cuyo fundamento es la distribución normal. 
En el capítulo 9 se exploran las bases de la inferencia estadística y se presentan 
las pruebas de hipótesis para medias, varianzas y proporciones. El capítulo 10 de- 
talla el uso de la distribución chi-cuadrada, tanto para determinar la bondad del 
ajuste, como para tablas de contingencia, mientras que el capitulo 11 introduce al 
lector en los conceptos básicos del control de calidad estadístico y a los procedimien- 
tos para aceptar una muestra. En el capítulo 12 se presentan el diseño de experimentos 
estadísticos y el análisis de varianza, tanto para experimentos de un solo factor 
como para dos. En los capítulos 13 y 14 se trata, de manera prolija, el análisis de 
regresión; además, se examinan con detalle temas como: errores autocorrelaciona- 
dos, análisis de residuos, mínimos cuadrados con factores de peso, multicolineali- 
dad y distintas formas para determinar el mejor conjunto de variables de predicción. 
Al concluir, el capítulo 15 explora y compara algunos de los procedimientos no 
paramétricos más útiles. 

Al final del capítulo 1 y del 13 se encuentra un apéndice en que se revisa la no- 
tación sumatoria y del álgebra matricial. Las demostra</on<3 de los teoremas más 
importantes se encuentran, para los lectores cuyas inclinaciones son más hacia la 
teoría, en los apéndices de los capítulos 4, 5 y 7. En el apéndice del libro se encuen- 
tran once tablas estadísticas. Se intentó, hasta donde fue posible, uniformar la 
estructura de éstas; por ejemplo, se encuentran tabulados valores para las distri- 
buciones binomial, de Poisson, hipergeométrica y normal, además de los valo- 
res cuantiles para las distribuciones chi-cuadrada, t de Student y F. Las tablas para 
las distribuciones anteriores, excepto la hipergeométrica, se generaron mediante al- 
gunas subrutinas del paquete IMSL Unternational Mathematical and Statistical Li-- 
braries). La similitud con las tablas estadísticas, ya establecidas, es excelente. Los 
paquetes para computadora Minitab y SAS (Statistical Analysis System) se emplea- | 
ron con objeto de ilustrar las técnicas del análisis de regresión (Caps.:13 y 14). Se 
supone que el lector tiene acceso a algunos de estos paquetes o a otros similares, 
como el SPSS (rines es Jor the Poca PE y BMDP. ici 
Programs). > ; Es A 
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CAPÍTULO UNO 


Introducción y 
estadística descriptiva 


1.1 Introducción 


Para mucha gente, estadística significa descripciones numéricas. Esto puede verifi- 
carse fácilmente al escuchar, un domingo cualquiera, a un comentarista de televisión 
narrar un juego de fútbol. Sin embargo, en términos más precisos, la estadística es el 
estudio de los fenómenos aleatorios. En este sentido la ciencia de la estadística tiene, 
virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de dis- 
ciplinas que van desde las ciencias y la ingeniería hasta las leyes y la medicina. El as- 
pecto más importante de la estadística es la obtención de conclusiones basadas en los 
datos experimentales. Este proceso se conoce como inferencia estadística. Si una 
conclusión dada pertenece a un indicador económico importante o a una posible 
concentración peligrosa de cierto contaminante, o bien, si se pretende establecer una 
relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la 
conclusión esté basada en la inferencia estadística. 

Para comprender la naturaleza de la inferencia estadística, es necesario entender 
las nociones de población y muestra. La población es la colección de toda la posible 
información que caracteriza a un fenómeno. En estadística, población es un concep- 
to mucho más general del que tiene la acepción común de esta palabra. En este senti- 
do, una población es cualquier colección ya sea de un número finito de mediciones o 
una colección grande, virtualmente infinita, de datos acerca de algo de interés. Por 
otro lado, la muestra es un subconjunto representativo seleccionado de una pobla- 
ción. La palabra representativo es la -clave de esta idea. Una buena muestra es 
aquella que refleja las características esenciales de la población de la cual se obtuvo. 
En estadística, el objetivo de las técnicas de muestreo es asegurar que cada observa- 
ción en la población tiene una oportunidad igual e independiente de ser incluida en 
la muestra. Tales procesos de muestreo conducen a una muestra aleatoria. Las ob- 
servaciones de la muestra aleatoria se usan para calcular ciertas características de la 
muestra denominadas estadísticas, Las estadísticas se usan como base para hacer in- 
ferencias acerca de ciertas características de la población, que reciben el nombre de 
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parámetros. Así, muchas veces se analiza la información que contiene una muestra 
aleatoria con el propósito principal de hacer inferencias sobre la naturaleza de la 
población de la cual se obtuvo la muestra. 

En estadística la inferencia es inductiva porque se proyecta de lo específico 
(muestra) hacia lo general (población). En un procedimiento de esta naturaleza 
siempre existe la posibilidad de error. Nunca podrá tenerse el 100% de seguridad 
sobre una proposición que se base en la inferencia estadística. Sin embargo, lo que 
hace que la estadística sea una ciencia (separándola del arte de adivinar la fortuna) es 
que, unida a cualquier proposición, existe una medida de la confiabilidad de ésta. 
En estadística la confiabilidad se mide en términos de probabilidad. En otras pa- 
labras, para cada inferencia estadística se identifica la probabilidad de que la infe- 
rencia sea correcta. 

Los problemas estadísticos se caracterizan por los siguientes cuatro elementos: 


1. La población de interés y el procedimiento científico que se empleó para mues- 
trear la población. 

2. La muestra y el análisis matemático de su información. 

Las inferencias estadísticas que resulten del análisis de la muestra. 

4. La probabilidad de que las inferencias sean correctas. 


a 


El enfoque precedente para la inferencia estadística descansa únicamente en 
la evidencia muestral. Éste es denominado teoría del muestreo o enfoque clásico dela 
inferencia estadística y para la mayor parte de ésta, será el que se tome en este libro. 
Sin embargo, también se tratará de incorporar ocasionalmente otro punto de vista 
conocido como inferencia bayesiana. Esta forma de abordar la inferencia estadística 
utiliza la combinación de la evidencia muestral con otra información, generalmente 
proporcionada por el investigador del problema. Tal información descansa de ma- 

- nera fundamental en la convicción o grado de creencia del investigador con respecto 
a las incertidumbres del problema, antes de que se encuentre disponible la evidencia ` 
muestral. Este grado de creencia puede basarse en consideraciones como los resulta- 
dos conocidos, que son producto de investigaciones previas. Es importante que el 
lector comprenda que el objetivo de los procedimientos clásico y bayesiano descansa 
en la evaluación de las incertidumbres basadas en la probabilidad. 

Para comprender la esencia del muestreo aleatorio y de la inferencia estadística, 
es necesario entender como primer punto, la naturaleza de una población en el con- 
texto de la probabilidad y de los modelos probabilísticos. Estos temas se examinan 
con detalle en los capítulos dos a seis. 

Este capítulo tratará brevemente las estadísticas descriptivas. A pesar de que és- 
tas son sencillas desde el punto de vista matemático, son valiosas en casos donde se 
encuentra disponible la población completa y no existe incertidumbre, o cuando 
‘se tienen a la mano grandes conjuntos de datos que pueden o no considerarse como 
muestras aleatorias. Si un conjunto grande se considera como muestra aleatoria de 
una población, la estadística descriptiva puede ir tan lejos como la distribución gene- 
Tal de valores, al dar una evidencia empírica y otras características de la población. . 
Esta evidencia tiene un apreciable valor puesto que afirma ciertas son que 
deben formularse en la aplicación de la inferencia estadística. > . 
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1.2 Descripción gráfica de los datos 


Una descripción informativa de cualquier conjunto de datos está dada por la fre- 
cuencia de repetición u arreglo distribucional de las observaciones en el conjunto. 
Para apreciar lo necesario de un resumen de datos, considere el ejemplo del Servicio 
de Hacienda Interno (SHI) que se encarga de recibir y procesar millones de declara- 
ciones de ingresos durante todo el año. Es dudoso que el SHI pueda descubrir los 
patrones ocultos de ingresos e impuestos examinando simplemente la información 
contenida en las declaraciones. Similarmente, el Departamento del Censo no podría 
avanzar mucho al analizar los datos del censo, si éstos no pudiesen visualizarse. Para 
identificar los patrones en un conjunto de datos es necesario agrupar las observa- 
ciones en un número relativamente pequeño de clases que no se superpongan entre sí, 
de tal manera que no exista ninguna ambigúedad con respecto a la clase a que perte- 
nece una observación en particular. El número de observaciones en una clase recibe 
el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase 
con respecto al número combinado de observaciones en todas las clases se conoce 
como la frecuencia relativa de esa clase. Las fronteras de la clase se denominan 
límites, y el promedio aritmético entre los límites superior e inferior recibe el nombre 
de punto medio de la clase. Al graficarse las frecuencia relativas de las clases contra 
sus respectivos intervalos en forma de rectángulos, se produce lo que comúnmente 
se conoce como histograma de frecuencia relativa o distribución de frecuencia relati- 
va. Esta última es la que puede hacer evidentes los patrones existentes en un conjun- 
to de datos. 

Como ilustración, los datos de la tabla 1.1 representan las frecuencias de unidades 
vendidas por día de un determinado producto por una compañía. El histograma de 
frecuencia relativa se construye graficando en el eje vertical la frecuencia relativa y 
en el eje horizontal las fronteras inferiores de cada clase, como se ilustra en la fi- 
gura 1.1. i 

El número de clases que se emplea para clasificar los datos en un conjunto de- 
pende del total de observaciones en éste. Si el número de observaciones es relativa- 
mente pequeño, el número de clases a emplear será cercano a cinco, pero general- 


TABLA 1.1 Frecuencias para el número de unidades vendidas de cierto producto 


Número de unidades Frecuencia de 

vendidas (Clase) la clase Frecuencia relativa 
80-89 7 7/100 = 0.07 
90-99 20 i 20/100 = 0.20 
100-109 . 5 5/100 = 0.05 
110-119 11 $ -14/100 = 0.11 
120-129 11- i 11/100 = 0.11 

- 130-139 até 12 -12/100 = 0.12 
«140-149 6 6/100 = 0.06 
0 150-159 l 23 23/100 = 0.23 
160-169 5 5/100 = 0.05 


Total . 100 >. 1.00 
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FIGURA 1.1. Histograma de frecuencia relativa para el número de unidades vendidas 


mente nunca menor que este valor. Si existe una cantidad sustancial de datos, el nú- 
mero de clases debe encontrarse entre ocho y doce y generalmente no existirán más 
de 15 clases. Un número muy pequeño de clases puede ocultar la distribución real del 
conjunto de datos, mientras que un número muy grande puede dejar sin observa- 
ciones a algunas de las clases, limitando de esta forma su uso. A manera de ilustra- 
ción, si se reducen las nueve clases a sólo tres, en el ejemplo anterior, como se indica 
en la tabla 1.2, el histograma de frecuencia relativa resultante (Fig. 2) es muy dife- 
rente al mostrado en la figura 1.1. 

Una buena práctica es la creación de clases yuc tengan una longitud igual. Esto 
puede lograrse tomando la diferencia entre los dos valores extremos del conjunto de 
datos y dividiéndola entre el número de clases; el resultado será aproximadamente la 
longitud del intervalo para cada clase. Sin embargo, existen casos donde esta regla 
no puede o no debe aplicarse. Por ejemplo, si se tuviera a la mano la lista de impues- 
tos de SHI pagados por la población en un año, estas cantidades pueden encontrarse 


TABLA 1.2 Frecuencia para el número de unidades vendidas de cierto producto 


Número de unidades Frecuencia de E: 
vendidas (Clase) ; la clase . Frecuencia relativa 
80-109" * 32 32/100 = 0.32 
110-139 3 34 i 34/100:= 0.34 
140-169 . e 34 . 34/100 = 0.34 


Total 100 1.00 
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FIGURA 1.2 Histograma modificado para el número de unidades vendidas 


en un intervalo de $0 a $1 000 000. Aun a pesar de que se eligiesen 20 clases para la 
distribución de frecuencia relativa, con intervalos de igual longitud, cada clase 
tendría una cobertura de $50 000. Lo anterior daría origen a una situación en la que 
casi todas las observaciones caerían en la primera clase. Para casos como éste es pre- 
ferible seleccionar una escala más pequeña en el extremo inicial que la utilizadá para 
el extremo superior. Esta elección aclarará el patrón de la distribución. 

Los siguientes ejemplos ilustran estos conceptos. 


Ejemplo 1.1 De acuerdo con la revista Informes al Consumidor en su número de 
febrero de 1980, las cuotas anuales de 40 compañías para un seguro de $25 000 para 
hombre de 35 años de edad son las siguientes: 


92 93 94 95. 95 95 95 95 97 98 
99 99 100 100 101 101 103 103 103 104 
105 105 106 107 107 107 109 110 110 111 


Establecer un esquema de agrupamiento para este conjunto de datos y determinar 
las frecuencias relativas. 

Dado que la diferencia entre los dos valores extremos del conjunto es de sólo 
$29, puede ser razonable agrupar los datos en clases con intervalos de igual longitud. 
Supóngase que se decide utilizar seis clases; entonces el intervalo de cada clase será 
aproximadamente de $5. Para establecer las fronteras de cada clase, es necesario 
considerar la unidad más cercana con respecto a la cual se miden las observaciones. 
En este ejemplo las cuotas se presentan redondeadas al dólar más cercano. Con toda 
seguridad el importe de las cuotas es conocido hasta centavos, pero sólo se presentan 
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entre $81.50 y $82.49, las seis clases con sus respectivas fronteras son (81.5-86.5), 
(86.5-91.5), (91.5-95.5), (96.5-101.5), (101.5-106.5) y (106.5-111.5). 

Estas fronteras también se conocen como los límites verdaderos debido a que 
reflejan la unidad más pequeña que se emplea para tomar las observaciones. Dado 
que las cuotas se presentan redondeadas al dólar más cercano, se puede también 
elegir los límites de las seis clases como (82-86), (87-91), (92-96), (97-101), (102-106) 
y (107-111). Éstos se conocen como los límites de escritura puesto que reflejan el 
mismo grado de precisión que el de las observaciones presentadas. El intervalo de la 
clase es la diferencia entre los límites verdaderos de cada clase, mientras que los pun- 
tos medios pueden determinarse al utilizar los límites verdaderos o los de escritura. 
En la tabla 1.3 se da un resumen de la información pertinente para el agrupamiento 
de este ejemplo. 

De acuerdo con lo mencionado al principio de esta sección, la distribución de fre- 
cuencia relativa se determina graficando las frecuencias relativas en el eje vertical 
contra los límites de escritura inferiores para cada una de las clases en el eje horizon- 
tal. Para este fin se emplean rectángulos de igual anchura que representen las fre- 
cuencias relativas. En la figura 1.3 se muestra el histograma del ejemplo 1.1. Nótese 
que es más fácil graficar las frecuencias de cada clase que las correspondientes fre- 
cuencias relativas; en ambos casos las gráficas serán idénticas. Si existe alguna prefe- 
rencia para usar las frecuencias relativas, se debe a que la escala vertical tiene un in- 
tervalo fijo de cero a uno. 

El principal objetivo de la representación gráfica de las frecuencias relativas es 
mostrar el perfil de distribución de los datos. El conocimiento de este perfil es útil en - 
varias formas, como sugerían los análisis apropiados que se intentarán mediante la 
inferencia estadística, o si los datos constituyen una muestra aleatoria de alguna ~ 
población o si se utilizan con el fin de comparar los perfiles de distribución de dos o 
más conjuntos de datos. En el ejemplo 1.1. es notorio que la distribución de cuotas 
anuales en las 40 compañías es uniforme a través de todo el intervalo de valores. 

Otra caracterización gráfica útil, de un conjunto de datos, es la distribución de 
frecuencia relativa acumulada u ojiva. La distribución acumulativa se obtiene grafi- 
cando, en el eje vertical, la frecuencia relativa acumulativa de una clase contra el 


TABLA 1.3 Agrupamiento y frecuencias relativas para el ejemplo 1.1 


Límites de escritura Punto Frecuencia de la clase ` Frecuencia relativa 
de la clase medio f f/n 
82-86 84 3 . 3/40 = 0.075 
87-91 89 7 7/40 = 0.175 
`.. 92-96 94 ; 8 8/40 = 0.200 
97-101 99 V 8 8/40 = 0.200”. 
102-106 104 7 7/40 = 0.175 
7 7/40 = 0.175 


> 107-111 109 
ES UER ; maoy 40 e 1.000 


LL LICO AI e UT UD UU i 


0.20 


0.15 


0.10 


Frecuencia relativa 


0.05 


82 87 92 97 102 107 112 


Cuotas anuales 
FIGURA 1.3 Distribución de frecuencia relativa para los datos del ejemplo 1.1 


límite inferior de la siguiente sobre el eje horizontal y uniendo con segmentos todos 
los puntos consecutivos. La tabla 1.4 lista las frecuencias relativas acumuladas para 
el ejemplo 1.1. ; 

Dado que la frecuencia relativa de una clase refleja la proporción de las observa- 
ciones contenidas en ésta, la frecuencia relativa acumulativa es la proporción de ob- 
servaciones cuyos valores son menores o iguales al límite superior de la clase o, en 
forma equivalente, menores que el límite inferior de la siguiente clase. En el ejemplo 
1.1 y para la tabla 1.4, la proporción de cuotas menores de $82 es cero. La de cuotas 
menores de $87 es de 0.075, la proporción de menores de $92 es de 0.250. La distri- 
bución de frecuencia relativa acumulativa para el ejemplo 1.1 se muestra en la figu- 
ra 1.4. 

En este contexto el principal uso de la distribución acumulativa es lo que común- 
mente se conoce como cuantiles. Cun 1uspecto a una distribución de frecuencia rela- 
tiva acumulativa, se define un cuantil como el valor bajo el cual se encuentra una de- 
terminada proporción de los valores de la distribución. El valor del cuantil se lee en 


TABLA 1.4 Distribución de la frecuencia relativa acumulativa 


Límites de 
escritura de Frecuencia Frecuencia ` Frecuencia relativa 

la clase M de clase acumulativa acumulativa 
82-86 3 3 l 3/40 = 0.075 
87-91 , 37 ~ 10 10/40 = 0.250 
92-9% = *! :8 18 18/40 = 0.450 
97-101 8 - > 26 26/40 = 0.650 
102-106. A 7 3 33/40 = 0.825 
107-111 7 40 40/40 = 1.000 


i 
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FIGURA 1.4 Distribución de frecuencia relativa acumulativa para el ejemplo 1.1 


la dirección opuesta, en el eje horizontal, a la proporción correspondiente deseada 
sobre el eje vertical. El cuantil más común es el percentil. Por ejemplo, qo.2 es el 
valor bajo el cual se encuentra el 20% de los valores de la distribución y q, yes aquél 
bajo el cual se encuentra el 90% de los valores de la distribución. 


Ejemplo 1.2 El departamento de Agricultura de Estados Unidos informó que, en 
1976, los ingresos netos por cosecha para los 50 estados de la nación, fueron los si- 
guientes: 


$ 5952 63 855 39 362 - 969 ` 27611 
13 647 10 630 6 644 4 438 19 106 
8 681 5 332 2 304 6 859 8 141 
11 771 9 378 5 992 7 000 12 543 
4 963 4 543 11 177 12 292 6 695 
10 207 7 627 8 992 23 811 7 657 
8 043 8 972 6480 6824 9 554 
4 626 4 845 10452 9 922 7683 > 
5119 8 621 2 290 4 973 3904 
2 892 5 405 2789 . 30 241 ` 


Establecer un esquema de agrupamiento para este conjunto de datos y determinar 
las frecuencias relativas. 
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TABLA 1.5 Frecuencias relativas para el ejemplo 1.2 con intervalos de igual longitud 


Límites de escritura de la clase Frecuencia de la clase Frecuencia relativa 
0-7 999 27 0.54 
8 000-15 999 18 0.36 
16 000-23 999 2 0.04 
24 000-31 999 ] 0.02 
32 000-39 999 l 0.02 
40 000-47 999 0 0 
48 000-55 999 0 0 
56 000-63 999 | 0.02 
Total 50 1.00 


Supóngase que se decide emplear ocho clases de igual longitud. Puesto que la di- 
ferencia entre los dos valores extremos del conjunto de datos es aproximadamente 
de $64 000, la longitud de cada clase es de $8 000 y los límites son (-0.5-7 999.5), 
(7 999.5-15 999.5), ..., (55 999.5-63 999,5). Las frecuencias de cada clase y las fre- 
cuencias relativas para este esquema de agrupamiento se dan en la tabla 1.5. Tal es- 
quema resulta inadecuado porque el 90% de las observaciones se encuentran en las 
dos primeras clases y existen otras dos que no tienen ninguna observación. Este 
ejemplo ilustra un conjunto de datos para el que no deben usarse intervalos de igual 
longitud, ya que se tiene un agregado muy alto de observaciones con sólo algunas 
cuantas dispersas alrededor de éste. En el ejemplo 1.2 existe mayor concentración de 
datos en el extremo inferior que en el superior. Por consiguiente, considérese el si- 
guiente esquema de agrupamiento de ocho clases con límites (-0.5-1 999.5), 
(1 999.5-3 999.5), (3 999.5-5 999.5), (5 999.5-7 999.5), (7 999.5-11 999.5), 
(11 999.5-27 999.5), (27 999.5-43 999,5), (43 999.5-75 999.5). La tabla 1.6 contiene 
las frecuencias relativas para este esquema, mientras que en la figura 1.5 se muestra 
la distribución de frecuencias. 

Al determinar la distribución de frecuencia relativa de la figura 1.5, se empleó la 
altura del rectángulo en la representación de la frecuencia relativa de cada clase, de 
la misma manera como se hizo en el ejemplo 1.1. Sin embargo, a causa de que los 
intervalos no tienen la misma longitud, la figura 1.5 produce la impresión errónea de 
que, por ejemplo, la clase (12 000-27 999) contiene más del 12% de las observa- 
ciones. Lo anterior se debe a que cuando se comparan figuras geométricas, como los 
rectángulos, se tiende más a comparar el área que la altura. Cuando los intervalos de 
clase son idénticos, el área de los rectángulos representa las frecuencias. Sin embargo 
cuando la longitud de los intervalos es diferente, como en el ejemplo 1.2, las áreas 
no representan la frecuencia. Por lo tanto, es necesario ajustar la altura de los rec- 
tángulos para que sus áreas sean proporcionales a la frecuencia. Este procedimiento 
representa de manera correcta las frecuencias para intervalos de diferente longitud. 

Para ilustrar este método, en el ejemplo 1.2, se observa que las longitudes de las 
primeras cuatro clases son idénticas. Entonces deben ajustarse las últimas cuatro con el 
fin de que sus longitudes se relacionen con las de las primeras cuatro clases (de 
$2 000). Las alturas de los rectángulos correspondientes a las cuatro últimas clases se 
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FIGURA 1.5 Distribución de frecuencia relativa para los ingresos por cosecha del año 1976 


ajustan de tal forma que su área se encuentra en la misma proporción (2 000) con res- 
pecto a sus frecuencias relativas que las de los rectángulos de las primeras cuatro cla- 
ses. Las alturas de las primeras cuatro siguen siendo las mismas que aparecen en la úl- 
tima columna de la tabla 1.6, mientras que las alturas corregidas para las últimas 
cuatro son 0.15, 0.015, 0.0025 y 0.00125 respectivamente. En este momento debe 
notarse que la suma de todas estas nuevas alturas es de 0.70875 y no de 1.00, como es 
requerido para frecuencias relativas. Una división por 0.70875 convertirá estas altu- . 
ras a las frecuencias relativas deseadas. En la tabla 1.7 aparecen las frecuencias rela- 
tivas corregidas y en la figura 1.6 se da la ccurecta representación de la distribución 
de frecuencia relativa. 


TABLA 1.6 Frecuencias relativas para el ejemplo 1.2 con intervalos de distinta longitud 


Límites de escritura de la clase Frecuencia de la clase Frecuencia relativa 

0-1 999 2 0.04 

2 000-3 999 $ 0.10 

4 000-5 999 11 0.22 

6 000-7 999 V 9 0.18 

8 000-11 999 15 0.30 

12 000-27 999 6 0.12 

28 000-43 999 > 1 :0.02 

44 000-75 999 - l : 0.02 ~- 


y 
ta 
© 


Biy Total ` A E E ; 1.00 
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TABLA 1.7 Frecuencias relativas corregidas para el ejemplo 1.2 con intervalos de distinta 
longitud 


Límites de escritura de la clase Frecuencia relativa corregida 

0-1 999 0.0564 

2,000-3 999 0.1411 

4,000-5 999 0.3104 

6,000—7 999 0.2540 
8,000—11 999 0.2116 
12,000-27 999 0.0212 
28,000-43 999 0.0035 
44,000—75 999 0.0018 

Total 1.0000 


1.3 Medidas numéricas descriptivas 


En la sección anterior se plantearon las técnicas gráficas para descubrir los patrones 
de distribución ocultos en un conjunto de datos. En-esta sección se definen algunas 
medidas numéricas que se emplean comúnmente para describir conjuntos de datos. 
Si el conjunto es una muestra aleatoria de una población y la última meta es hacer 
inferencia estadística, estas medidas serán utilizadas como bases para las inferen- 
cias, tal como se menciona en los capítulos 7 a 9. 
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FIGURA 1.6 Distribución de frecuencia relativa corregida para los ingresos por cosecha del 
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12 /ntroducción y estadistica descriptiva 


Existen dos medidas de interés para cualquier conjunto de datos: la localización 
de su centro y su variabilidad. La tendencia central de un conjunto de datos es la dis- 
posición de éstos para agruparse ya sea alrededor del centro o de ciertos valores nu- 
méricos. La variabilidad de un conjunto de datos es la dispersión de las observa- 
ciones en el conjunto. 

Existen principalmente tres medidas de tendencia central: la media, la mediana y 
la moda. 


Definición 1.1 La media de las observaciones x,, x», ..., x, es el promedio arit- 
mético de éstas y se denota por 


n 


x=) x/n. (1.0) 


i=1 


La media es una medida apropiada de tendencia central para muchos conjuntos 
de datos. Sin embargo, dado que cualquier observación en el conjunto se emplea 
para su cálculo, el valor de la media puede afectarse de manera desproporcionada 
por la existencia de algunos valores extremos. 


Definición 1.2. La mediana de un conjunto de observaciones es el valor para el 
cual, cuando todas las observaciones se ordenan de manera creciente, la mitad de és- 
tas es menor que este valor y la otra mitad mayor. 


Si el número de observaciones en el conjunto es impar, la mediana es el valor de 


la observación que se encuentra a la mitad del conjunto ordenado. Si el número es . 


par se considera la mediana como el promedio aritmético de los valores de las dos 
observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamen- 
te, la mediana puede determinarse a partir de la distribución acumulativa, es decir, 
la mediana es el percentil cincuenta. 

Puesto que la mediana es un valor que se basa en la secuencia ordenada de las ob- 
servaciones en un conjunto de datos, es necesario saber que la existencia de algunos 
valores extremos no afectará su valor. Por lo tanto, si un conjunto contiene unos 
cuantos valores extremos y un agregado muy alto de observaciones, la mediana 
puede ser una medida de tendencia central mucho más deseable que la media. Gene- 
ralmente los conjuntos de datos que describen información acerca de ingresos caen 
en esta categoría. 


Definición 1.3 La moda de un conjunto de observaciones es el valor de la observa- 
ción que ocurre con mayor frecuencia en el conjunto. 

La moda muestra hacia qué valor tienden los datos a agruparse. En conjuntos re- 
lativamente pequeños, puede que no exista un par de observaciones cuyo valor sea el 
mismo. En esta situación no es clara la definición de moda. También puede suceder 
que la frecuencia más alta se encuentre compartida por dos o más observaciones. En 
estos casos, la moda tiene una utilidad limitada como medida de tendencia central. 
Si se ha determinado una distribución de frecuencia relativa, la clase con la frecuen- 
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cia más alta recibirá el nombre de clase modal, con lo que se define a la moda como 
el punto medio de esa clase. En este caso la clase modal sirve como punto de con- 


centración en el conjunto de datos. 
Para las observaciones del ejemplo 1.1 la media se calcula como 


E 82 +85 + + 111 


20 = $97.90. 
La media para el ejemplo 1.2 es 
5,952 + 63, +24 
De 1952 + 63,855 + 241 = $9 811.34. 


50 


La mediana del ejemplo 1.1 es el promedio artimético de los valores de las obser- 
vaciones 20 y 21 en la secuencia ordenada de éstas, ya que existe un número par de 
observaciones. La mediana es (98 +99)/2 = $98.50. Similarmente, la mediana del 
ejemplo 1.2 es el promedio aritmético de los valores de las observaciones 25. y 26 en 
la secuencia ordenada de éstas, o (7 627 + 7 657)/2 = $7 642. Se observa que la moda 
en el ejempo 1.1 es $95 porque este valor es el que ocurre con mayor frecuencia; sin 
embargo, para el ejemplo 1.2 la moda no está claramente definida puesto que nin- 
gún valor se repite. Nótese que para el ejemplo 1.1 los valores de la media, mediana y 
moda se encuentran muy cercanos, relativamente, entre sí. Esto se debe a que las 
cuotas se encuentran distribuidas de manera uniforme sobre el intervalo completo de 
valores. Para el ejemplo 1.2 la media es sustancialmente mayor que la mediana, de- 
bido a que la primera se encuentra afectada de manera desproporcionada por los 
ingresos por cosecha de algunos estados, los que son muy grandes comparados con 
los de otros. Así, para este conjunto de datos la mediana de $7 642 podria ser una 
medida de tendencia central mucho más real. 
~ Muchas veces la única información disponible es una tabla de frecuencias, como 
las tablas 1.3 a 1.6. En estos casos sólo es posible obtener valores aproximados para 
la media, mediana y moda — o para cualquier otra medida numérica descriptiva —; 
los valores exactos pueden calcularse únicamente a partir de las observaciones indi- 
viduales del conjunto o de los datos no agrupados. Los cálculos aproximados se 
basan en los puntos medios de cada clase y sus respectivas frecuencias. En general, 
mientras más pequeña sea la longitud de la clase y mayor la uniformidad de las ob- 
servaciones en ésta, mayor será la similitud entre las medidas descriptivas calculadas 
en los datos agrupados y no agrupados. 

Para calcular la media con base en los datos agrupados, sea k el número de clases 
y x; el punto medio de la ¡-ésima clase. Entonces el valor aproximado de la media es 


+ 
ad 


HO afis LAS A . 
en'donde f; es la`frecuencia de la i-ésima clase y n = Ef., fi. Nótese que en esta 
fórmula la frecuencia de la clase representa la frecuencia relativa de las observaciones 
- dentro de'cada clase.: Es decir, entre más observaciones tenga una clase mayor será el 


peso del punto medio de ésta en el cálculo de la media. La afirmación anterior gene- 


A . . 
z= È fan. - t czo (1.2) 
izl, 1 


TABLA 1.8 Calculo aproximado de la media para el ejemplo 1.1 


Punto medio Frecuencia de 


de la clase la clase a 
Xi Í fixi n= Sf = 40 
84 3 252 i 
89 7 623 , 
94 8 752 Y fx = 3910 
99 8 792 ied 
104 7 728 6 
109 7 763 ra= D fi /n = 3 910/40 = $97.75 


Total 40 3 910 


ralmente es cierta en la determinación de medidas numéricas con base en datos agru- 
pados. 

Se ilustrarán los procedimientos computacionales para determinar las medidas 
descriptivas numéricas empleando el ejemplo 1.1 y en particular los límites y frecuen- 
cias de cada clase expuestos en la tabla 1.3. La información más importante aunada 
al cálculo de la media se muestra en la tabla 1.8. 

Para datos agrupados, la mediana es aquel valor que divide en dos partes iguales 
la distribución de frecuencia relativa. La fórmula computacional está dada por 


Mediana = L + cl j/fan), (1.3) 


en donde L es el límite inferior de la clase donde se encuentra la mediana, f„ es la 
frecuencia de esa clase, c es la longitud de la clase y j es el número de observaciones 
en esta clase, necesarias para completar un total de 1/2. Para determinar la mediana 
esta fórmula en esencia, se interpola linealmente en la clase que contiene a la media- 
na. Así, se supone que las observaciones se encuentran distribuidas uniformemente 
dentro de la clase. l i 

La mediana para los datos agrupados del ejemplo 1.1 se determina utilizando la 
información contenida en la tabla 1.3. El número total de observaciones es 40 y n/2 
es 20. Puesto que la suma de las frecuencias de las primeras tres clases es 18 y la de 
las primeras cuatro es 26, la mediana se encuentra en la cuarta clase, cuyo límite in- 
ferior es 97. Del total de observaciones en ésta clase, que, “es ocho, se necesitan dos 
más para alcanzar el valor de 20. Mediante el empleo de la fórmula, la mediana re- 
sulta ser 


Mediana = 97 + 5(2/8) = $98.25. 


Como se mencionó anteriormente, la moda se toma, para datos agrupados, como 
el punto medio de la clase que presenta una mayor frecuencia. En el ejemplo 1.1.la 
frecuencia más alta se encuentra compartida por las clases (92-96) y (97-101). Con 
base en lo anterior, la moda resulta ser.el promedio, aritmético entre los dos puntos. 
medios de.las clanes, 0,(94 +: 92)/2.= . $96.50: ias 
.. Una medida de tendencia central proporciona lAlcmacón a acerca ade un  conjun” 
to de datos] pero. no proporciona ninguna idea de la variabilidad de las obseivaciones 


A 


x 
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en dicho conjunto. Por ejemplo, considere los dos siguientes conjuntos de datos, 
cada uno de los cuales consiste de cuatro observaciones: 0, 25, 75, 100; 48, 49, 51, 
52. En ambos casos, media = mediana = 50. Estos dos conjuntos son muy diferen- 
tes entre sí, sin embargo las observaciones en el primero se encuentran mucho más 
dispersas que las del segundo. Una de las medidas más útiles de dispersión o va- 
riación es la varianza. 


Definición 1.4 La varianza de las observaciones x,, Xx», “"*, Xx, es, en esencia, el pro- 
medio del cuadrado de las distancias entre cada observación y la media del conjunto 
de observaciones. La varianza se denota por 


= Z- (an — D). (1.4) 


La varianza es una medida razonablemente buena de la variabilidad debido a que 
si muchas de las diferencias son grandes (o pequeñas) entonces el valor de la varian- 
za $° será grande (o pequeño). El valor de la varianza puede sufrir un cambio muy 
desproporcionado, aún más que la media, por la existencia de algunos valores extre- 
mos en el conjunto. 


Definición 1.5 La raíz cuadrada positiva de la varianza recibe el nombre de des- 
viación estándar y se denota por 


= Na - Da - 1. (LS) 


La varianza y la desviación estándar no son medidas de variabilidad distintas, 
debido a que la última no puede determinarse a menos que se conozca la primera. 
A menudo se prefiere la desviación estándar en relación con la varianza, porgue se 
expresa en las mismas unidades fisicas de las observaciones. 

Cuando se calcula el valor de la varianza, ya sea a mano o mediante el uso de una 
calculadora de baja capacidad, y el valor de la media o los valores de las observa- 
ciones no son números enteros, el uso de la ecuación (1.4) puede dar origen a errores 
grandes por redondeo. Con un poco de álgebra se obtiene, a partir de (1.4), una fórmu- 
la computacional más exacta para esas condiciones:* 


? = Y, — Y /( — 1) 


De- 21 x, + Xx) 


n -1 


* Para un repaso de la notación de suma véase el apéndice de este capítulo. 
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IS 


= D. (1.6) 


Nótese que para el numerador de la ecuación (1.4) primero debe calcularse la media, 
restarla de cada observación, tomar el cuadrado y entonces sumar. Para el numera- 
dor de (1.6) se suman todos los cuadrados de los valores observados, y entonces se res- 
ta el cuadrado de su suma dividido por el número de observaciones. Con base en nla 
ecuación (1.6), la desviación estándar está dada por 


(1.7) 


A continuación se ilustran los pasos que se deben seguir para el cálculo de la va- 
rianza y la desviación estźndar, para los datos no agrupados de los ejemplos 1.1 y 
1 2. Para el ejemplo 1.1, 


Y x = 82 +85 +- + 111 = 3916 


82? + 85? + -- + 111? = 385 756. 


Ma 
x, 
Il 


Se usa la ecuación (1.6), 


ps 
N 


2 
385 756 - 21O 
. Din AA A za 
os EE 61.0154. 


De la ador (1.7) se sigue que la desviación estándar ess = V61.0154 = 
$7.81. i ; ; 
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Para el ejemplo 1.2 se tiene 


so 


y x; = 5952 + 63855 + --- + 241 = 490 567, 


i=l 


50 
y = 5 952? + 63 855? + +: + 241? = 10 000 514 273, 


67 
10 000 514 273 — e 


2 = — = 105 865 196.8. 
sS 5071 10 


La desviación estándar es s = $10 289.08. 
Para datos agrupados, puede calcularse el valor aproximado de la varianza me- 
diante el uso de la fórmula 


k 
S fa z xy 
s = E (1.8) 


* =- ———— (1.9) 


(1.10) 


Para las tres fórmulas anteriores f; y x; son, respectivamente, la frecuencia y el 
punto medio de la ¡-ésima clase, y n es la suma de todas las frecuencias. Debe notarse 
que, en datos agrupados, la aproximación a la varianza puede no ser muy confiable, 
especialmente si las observaciones no se encuentran distribuidas de manera uniforme 
dentro de sus respectivas clases. El cálculo de los valores aproximados de la varianza 
y la desviación estándar, para los datos agrupados en tienpio, 1.1,se encuentra de- 
tallado en la tabla 1.9; o stress paco hei ers 

Otra medida útil de la variabilidad tiene basé en d aio absoluto de las. diferen- 
cias entre las observaciones x , xy,- x.y. la media o la mediana, dependiendo de cual 
de las dos se emplee como medida de tendencia central. 
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TABLA 1.9 Cálculo de los valores aproximados de la varianza y la desviación estándar para 
el ejemplo 1.1 ' 


Punto medio Frecuencia de 6 
© fixi = 3 910 (de la tabla) 1.8) 


de la clase la clase ; y 

xi f xi fixi iai 

Oee a e a A A 6 2 
84 3 7056 21168 (Ès) Ja = 382 202.5 
89 7 7921 55 447 iZi 
94 8 8 836 70688 
99 8 9 801 78 408 S fx = 384 590 
104 7 10816 75712 
109 7 11 881 83 167 

2 _ 384 590 — 382 202.5 
Total 40 11881 384 590 y 40 — 1 


= 61.2179 
s = v61.2179 = $7.82 


Definición 1.6 La desviación media es el promedio de los valores absolutos de las 
diferencias entre cada observación y la media de las observaciones. La desviación 
media está dada por 


Sh - x| 


DM. = = 
n 


(1.11) 


Para datos agrupados, el valor de la desviación media se aproxima por 


Ssk -7| 


D.M. = (1.12) 


Los términos empleados en estas expresiones son los mismos definidos anterior- 
mente. 

La desviación media es una medida interesante de la variación, especialmente en el 
contexto de la evidencia empírica, debido a que en muchas ocasiones el interés se 
centra en las desviaciones y no en los signos de éstas. Sin embargo, desde un punto de 
vista teórico, el empleo de la desviación media como medida de dispersión está en 
desventaja dado que, matemáticamente, es difícil de obtener. De cualquier manera, 
la desviación media es menos sensible a los efectos inducidos por las observaciones 
extremas del conjunto de datos que la varianza o la desviación estándar. Sin impor: 
tar la presencia de pocos valores extremos, la desviación media puede'proporcio- 
nar una medida de dispersión muho más real e z obtenida por: lac desviación es- 
tándar. ; aa 
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Para los datos no agrupados del ejemplo 1.1, la desviación media se calcula a 
partir de 


Sh -a= [82 — 97.9] + |85 — 97.9| + -= + |111 — 97.9| = 264.2 


para ser 
D.M. = 264.2/40 = $6.61. 


De manera similar para el ejemplo 1.2, la desviación media se calcula a partir de 


50 
Y lx, — F] = |5 952 — 9 811.34| + |63 855 — 9811.34] + =- + |241 — 9 811.34| 


i=] 
= 278 051.48 


para ser i 
D.M. = 278 051.48/50 = $5 561.03. 


Los pasos computacionales para una aproximación de la desviación media a los 
datos agrupados del ejemplo 1.1, se ilustran en la tabla 1.10. 


Definición 1.7 La desviación mediana es el promedio de los valores absolutos de 
las diferencias entre cada observación y la mediana de éstas. La desviación mediana 
está dada por 


2 lx, — D.Mal 


D.Mad. E (1.13) 


en donde Md denota a la mediana. 
Cuando la mediana se emplea como medida de tendencia central con el propósito 
de atenuar los efectos de la existencia de algunos valores extremos en el conjunto, 


TABLA 1.10 Cálculo aproximado de la desviación de la mediana para el ejemplo 1.1 


Punto medio Frecuencia de 


de la clase * la clase 
` x; f lx, — x| fix: — l 
84 3 | 84 — 97.75] 41.25 é 
89 7 | 89 — 97.75| 6125 © B flx — 7| = 265 
94 8 | 94 = 97.75] 30.00 E | 
DES 28. 19-97.5 10.00 D.M.=.265/40 
104 > g= Ejo = 97IS| =-43.75 n a 
A O a OEI E ra S Ae 
Total 40 265.00 Gor 
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debe preferirse a la desviación de la mediana como medida de dispersión por la misma 
razón. Cuando los datos se agrupan, se obtiene el valor aproximado de la desviación 
de la mediana al emplear la ecuación (1.12) y sustituir la mediana por la media. Las 
desviaciones de las medianas para las observaciones de los ejemplos 1.1 y 1.2 calcu- 
ladas con el mismo procedimiento que para las desviaciones de las medias, son 6.6 y 
$ 060.60 respectivamente. De manera similar el valor aproximado de la desviación 
de la mediana para los datos agrupados del ejemplo 1.1 tiene un valor de 6.575. 

El intervalo en el que se encuentran las observaciones en un conjunto de datos, es 
otra medida de variabilidad. 


Definición 1.8 El recorrido R de las observaciones en un conjunto de datos es la di- 
ferencia entre el valor más grande y el más pequeño del conjunto. 


Por su simplicidad, el recorrido proporciona una rápida indicación de la variabi- 
lidad existente entre las observaciones de un conjunto de datos. Sin embargo, como 
medida de dispersión debe usarse con precaución ya que su valor es una función, 
únicamente, de dos valores extremos pertenecientes al conjunto. Como regla general 
se debe evitar el uso del recorrido como medida de variabilidad, cuando el número 
de observaciones en un conjunto es grande o cuando éste contenga algunas observa- 
ciones cuyo valor sea relativamente grande. Este punto puede ilustrarse consideran- 
do los recorridos de los ejemplos 1.1 y 1.2, que son R, = 111 — 82 = $29, y R, = 
63 855 — 30 = $63 825, respectivamente. Para el ejemplo 1.1, R, parece ser una 
medida realista de la variabilidad, debido principalmente a que el conjunto no con- 
tiene ninguna cuota que se salga de la línea relativa a las otras. Sin embargo, para el 
ejemplo 1.2, R,no es una medida realista de la variabilidad, dado que los valores de 
$30 y $63 855 son, aparentemente, valores extremos con respecto a los ingresos ne- 
tos por cosecha de gran parte de los otros estados. Para muchos problemas tiene una 
mayor utilidad determinar el recorrido entre dos valores cuantiles que entre dos va- 
lores extremos. 


Definición 1.9 La diferencia entre los percentiles 75avo y 25avo recibe ei nombre 
de recorrido intercuantil. 


Definición 1.10 La diferencia entre los percentiles 90avo y décimo recibe el nombre 
de recorrido interdecil. 


El recorrido intercuantil refleja la variabilidad de las observaciones comprendi- 
das entre los percentiles 25 y 75 en el conjunto de datos, y el recorrido interdecil indi- 
ca la dispersión de las observaciones con valores entre los percentiles 90 y 10. El re- 
sultado es que ni el rango intercuantil ni el interdecil son afectados por la preia 
de observaciones relativamente gran , 

_ Para datos agrupados se Pueden aproximar los 'fecorridos jeguan e interdë 

a “partir de la distribución «de frecuéncia relativa acumulada. Para ilustrar, 
Empleado la figura 1.1, los. valores aproximados de. los rangos intercuantil e inter- 
decil para el ejemplo 1. 1 son doas Z do2s = 104. 50 — -92 = $12. 50, Y do9 — qor = 
109. $ = 87.5 = $22, ‘respectivamente. Para un conjunto de datos no agrupados 
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que contenga n observaciones, los percentiles 75avo y 25avo son los valores de las 
observaciones cuyos números de posición en la secuencia ordenada de observa- 
ciones, corresponden a 0.75n + 0.5 y 0.25n + 0.5, respectivamente. De manera si- 
milar, los percentiles 90 y décimo corresponden a los valores de las observaciones cu- 
yos números de posición, con respecto a la secuencia ordenada, son 0.9n + 0.5 y 
0.In + 0.5 respectivamente. Para los datos del ejemplo 1.2, los percentiles 25 y 75 son 
los valores de las observaciones 13 y 38 correspondientes a la secuencia ordenada de las 
observaciones, respectivamente. De esta manera, qos = $4 973, qu75 = $10 207, 
siendo el recorrido intercuantil de $5 234, Dado que para n = 50 0.ln + 0.5 = 
5.5, el décimo percentil es el promedio de los valores 5 y 6, de las observaciones 
ordenadas, 0 go, = 2 840.5. Similarmente el percentil 90avo es el promedio de las 
observaciones 45 y 46 correspondientes a la secuencia ordenada, O qog = 16 376.5. 
Por lo tanto, el recorrido interdecil para los datos del ejemplo 1.1 es de $13 536. 

A lo largo de todo el capítulo se han empleado los ejemplos 1.1 y 1.2 para ilustrar 
varios conceptos. Es importante notar que presentan situaciones contrastantes. El 
primero presenta un conjunto de datos en el que las observaciones se encuentran 
distribuidas de manera uniforme a lo largo del recorrido completo de valores, sin 
ninguna observación relativamente grande. El último ejemplifica una situación en la 


` que existe un agregado muy denso de observaciones y algunos valores relativamente 


grandes, especialmente en el extremo superior. La diferencia innata entre estos dos 
ejemplos, puede discernirse a través de una comparación de las medidas descriptivas 
numéricas que se han calculado para cada uno de ellos y que aparecen en la ta- 
bla 1.11. 

Nótese que en el ejemplo 1.1 los valores de las medidas de tendencia central se 
encuentran muy cercanos entre sí, mientras que para el ejemplo 1.2 se encuentran se- 
paradas entre sí de manera considerable. Se puede decir lo mismo de las desviaciones 
estándar, media y mediana para los dos ejemplos. En el ejemplo primero los valores de 
las desviaciones de la media y de la mediana se encuentran muy próximos al valor 
de la desviación estándar, mientras que en el ejemplo 1.2 tienen un valor casi similar 
a la mitad de la desviación estándar. Además, en el ejemplo 1.1 el recorrido interde- 
cil constituye una proporción relativamente grande del recorrido (22/29 = 0.76), 


TABLA 1.11 Resumen de las medidas numéricas descriptivas para los ejemplos 1.1 y 1.2 


Medida Ejemplo 1.1 Ejemplo 1.2 

numérica Datos no agrupados Datos agrupados Datos no agrupados 
Media 97.90 97.75 9 811.34 
Mediana 98.50 98.25 7 642.00 
Moda f 95.00 96.50 — 
Varianza 61.0154 61.2179 105 865 196.80 
Desviación estándar 7.81 7.82 10 289.08 
Desviación media : 6.61 6.63 ; -5 561.03 
Desviación mediana - 6.60 6.575 5 060.60 
Recorrido 29.00 : — . 63 825.00 
Recorrido intercuantil — 12.50 5 234.00 


Recorrido interdecil — i 22.00 -` 13 536.00 
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y en el ejemplo 1.2 esta medida es una porción relativamente pequeña de este último 
(13 536/63 825 = 0.21). , 

Estas comparaciones aclaran lo que las medidas numéricas y las distribuciones de 
frecuencia pueden hacer para descubrir la naturaleza inherente de un conjunto 
de datos. Sin embargo, el usuario debe tener cuidado tanto en la elección como en la in- 
terpretación de estas medidas. A pesar de que la media y la desviación estándar se han 
empleado de manera extensa como medidas de tendencia central y dispersión respec- 
tivamente, aunque tienen propiedades teóricas muy atractivas existen problemas 
— como el ejemplo 1.2 — para los cuales no pueden ser las medidas más deseables. En 
general, y por ende, las medidas más deseables para conjuntos de datos relacionados 
con mediciones físicas como lecturas de instrumentos, especificaciones de partes, pe- 
sos, etc., son la medida y la desviación estándar o la desviación de la mediana. Para 
conjuntos de datos relacionados con ingresos y otras informaciones de tipo econó- 
mico y financiero, las mejores elecciones para las medidas de tendencia central y dis- 
persión son la mediana y la desviación de la mediana respectivamente. 

Como nota final, las agencias del gobierno y muchos servicios de información 
proporcionan información en tablas de frecuencia que no sólo contienen clases de 
amplitud diferente sino también clases abiertas como “ingreso anual de $500 000 
o más” con el propósito de tener mayor cobertura de los datos. Estas clases se presen- 
tan en los extremos del conjunto y no se especifican las clases terminales. Como re- 
sultado, el punto medio de las clases abiertas no se encuentra definido y no pueden 
calcularse valores aproximados para algunas medidas numéricas como la media, va- 
rianza, desviación estándar y desviación media, a menos que se encuentren dispo- 
nibles algunas observaciones individuales contenidas en la clase o que sea conocido 
su promedio artimético. 
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Ejercicios 


1.1. Los siguientes datos son los lapsos, en minutos, necesarios para que 50 clientes de un 
banco comercial, lleven a cabo una transacción bancaria: 


7.8 08 09 04 1.3 
ds a Aa 1.6 1.9 
' 24% 46 380 15 27 
0.4 1.3 1.1 5.5 34 
4.2 12. 05 68 52 
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a) Construir una distribución de frecuencia relativa. 

b) Construir una distribución de frecuencia relativa acumulada. 

c) Con los resultados de la parte b, determine los recorridos intercuantil e interdecil. 

d) Con los datos agrupados, calcule la media, mediana, moda, desviación estándar, 
desviación media y desviación mediana. 

e) Verificar los resultados de la parte d calculando las mismas medidas para los datos no 
agrupados. 


1.2. La demanda diaria, en unidades de un producto, durante 30 días de trabajo es: 


a) Construir las distribuciones de frecuencia relativa y de frecuencia acumulada, 
b) Con la distribución acumulada, determine los tres cuantiles. 
c) Calcular la media, mediana, moda, desviación estándar, desviación media y des- 
viación mediana, empleando tanto los datos agrupados como los no agrupados, y 
__ compare los dos conjuntos de resultados. 
d) Comentar la naturaleza de esta distribución de frecuencia, cuando se compara con la 
del ejercicio 1.1. 


1.3. Aquí se presentan tres conjuntos de datos: 


Calcular la media y la varianza para cada conjunto de datos. ¿Qué se puede concluir? 


1.4. La siguiente tabla muestra las ventas, en miles de dólares, de 2) vendedores de una 
compañía de computadoras. 


402 . 293 35.6 88.2 42.9 
26.9 28.7 99.8 35.6 37.8 
44.2 32.3 55.2 50.6 25.4 
31.7 36.8 45.2 25.1 39.7 


a) Calcular la media, mediana, desviación estándar, desviación mediana, recorrido in- 
~ tercuantil y recorrido interdecil. i 
b) ¿Qué medidas de tendencia central y dispersión se elegirian y por qué? 


1.5. Con los datos del ejercicio 1.2, sea x; la demanda del ¡-ésimo día para i = 1,2... 30. 
Transformar los datos por medio de la relación ` 

ENE 

x; 515." 

1417 da D x 


T i 


¿44 Iniroauccion y estadistica descriptiva 


1.6. 


1.7. 


1.8. 


a) Construir una distribución de frecuencia relativa para los datos transformados. ¿Ha 
ocurrido algún cambio en la naturaleza de la distribución de frecuencia cuando ésta 
se compara con la del ejercicio 1.2? 

b) Con los datos transformados «;, calcular la media y la desviación estándar; mostrar 
que son iguales a cero y uno respectivamente. 


Los siguientes datos agrupados representan los pagos por almacenamiento para los 50 más 
grandes detallistas durante el año 1979! 


Límites de estructura de la clase Frecuencia 


1.10-1.86 4 
1.87-2.63 14 
2.64-3.40 11 
3.41-4.17 9 
4.18-4.94 7 
4.95-5.71 1 
5.72-6.48 2 
6.49-7.25 2 


a) Graficar la distribución de frecuencia relativa acumulada. 

b) Con los resultados de la parte a), determinar los recorridos intercuantil e interdecil. 
c) Calcular la media, mediana y moda. 

d) Calcular la varianza, desviación estándar, desviación media y desviación mediana. 


La siguiente información agrupada representa el número de puntos anotados por equipo 
y por juego en la Liga Nacional de Fútbol durante la temporada de 1973: 


Grupo Frecuencia 
0-3 27 
4-10 66 

11-17 91 

18-24 70 

25-31 57 

32-38 34 

39-45 16 

46-52 3 


a) Graficar la distribución de frecuencia relativa. 
b) Calcular la media y la moda. 
c) Calcular la varianza, desviación estándar y desviación media. 


Se seleccionaron de un proceso de fabricación, aleatoriamente, 20 baterías y se llevó a 
cabo una prueba para determinar la duración de éstas. Los siguientes datos representan 
el tiempo de duración, en horas, para las 20 baterías: 


52.5 62.7. 58.9 65.7 49.3 

58.9. 57.3 ` 60.4 59.6 58.1 ` i 
62.3 64.4 52.7 54.9 48.8 RR 
56.8 53.1 58.7 61.6 EE A ea 


a) Determinar la media y la mediana. 
b) Determinar la desviación estándar, desviación media y desviación mediana. 
c) Determinar los recorridos intercuantil e interdecil. 
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APÉNDICE 


Sumatorias y otras notaciones simbólicas 


El uso de la notación simbólica es esencial en estadística. Por ejemplo, para distin- 
guir entre los valores de n observaciones se emplea la notación simbólica x,, x3, ..., 
X» Uno de los simbolos más útiles es la letra griega * (sigma) con que se denota la 
suma de términos en una secuencia. De esta manera la suma de Xy X, -+ X, se desig- 
na por 


5 X= XA ta t e FAX 


y se lee “‘la suma de las x,, con i variando desde 1 hasta n”. La letra ¡ recibe el 
nombre de índice de suma y toma valores enteros sucesivos hasta e incluyendo a n, 
que es el limite superior o el valor más grande de i. Los siguientes son ejemplos del 
uso de > 


n 
ada Xisto t; 


i=l 


b) © (xa) = (x, — a) + (%2 — a) ++ + (x, — a); 


i=] 


o) È œ- a = (x - a + (a ay + + + (Xn ay; 
i=l 


n 


d) È, xyi = XY + Ys +e + Y 


Las siguientes tres propiedades son importantes cuando se emplea el símbolo È, 
Propiedad 1. Si c es cualquier constante, entonces 


on n 
5 CX; = cY x. 
i=l i=l 


Propiedad 2. Si c es cualquier constante, entonces 


Propiedad 3. 


Do +y) = Da + X y 
izi i=l ¡=1 
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Las propiedades anteriores pueden verificarse de la siguiente manera: 


1) D CX¡ = irt CX Ho + eR, 
=el + Xy + 0 + x,,) 


n 
C 5 Xi. 
i=1 


ii 


n 

XJ esceto 

S pra) 
n términos 


sl e 
Qs pra) 
n términos 


= nc. 


3) Da, + y) = i + y) + (o + ya) + + + (a, + Ya) 
i=1 


= (1, +x + RX) + (y + yate + ya) 
= 2 + Yo 


El símbolo £ también se emplea para denotar la suma sobre dos características 
diferentes. Por ejemplo, supóngase que se tiene la función p(x, y) de las variables x y 
y, las que toman únicamente valores enteros. En particular x toma los valores ente- 
ros de 0 y 1, y y valores 1, 2 y 3. Entonces la suma de p(x, y) sobre todos los valo- 
res tanto de x como de y se denota por 


1.30 l 
Y, Y pa, y) = p(0, 1) + p0, 2) + p(0,3) + p(1, D + p(l, 2) + p4, 3). 


x=0y=ł 


Nótese que primero se elige el índice de suma de x igual a cero y entonces se evalúa la 
suma interna para cada uno de los valores del índice de suma de y. Posteriormente se 
incrementa el índice de suma de x en uno y se repite el proceso. El procedimiento an- 
terior también se aplica a todas aquellas situaciones en las que se emplean subscritos 
dobles para distinguir entre dos características. Por ejemplo, considere la suma de la 
secuencia x;j, i =1,2...n,j = 1,2... m para todos los valores posibles de i iy dej. 
Tal suma puede denotarse por 
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En particular, sin = 2 y m = 3, entonces 


23 
5 > Xj = Xy Xn Xg t Xa +n + Xz. 
izi 


SA 


Otro simbolo últil es la letra griega 11 (pi). Esta letra se emplea para indicar el 
producto de los terminos de una secuencia. Por ejemplo, dada la secuencia de obser- 
, X,, el producto de r,, x>, ..., x, se denota por 


n 
JI Xi = A sei Ara 


i=1 


vaciones Xy, X, ... 


en donde la letra į tiene el mismo propósito que en la suma. 


CAPÍTULO DOS 


Conceptos en probabilidad 


2.1 Introducción 


La probabilidad es un mecanismo por medio del cual pueden estudiarse sucesos alea- 
torios, cuando éstos se comparan con los fenómenos determinísticos. Por ejemplo, 
nadie espera predecir con certidumbre el resultado de un experimento tan simple 
como el lanzamiento de una moneda. Sin embargo, cualquier estudiante de primer 
año de licenciatura en fisica debe ser capaz de calcular el tiempo que transcurrirá 
para que un objeto, que se deja caer desde una altura conocida, llegue al suelo. 

La probabilidad tiene un papel crucial en la aplicación de la inferencia estadística 
porque una decisión, cuyo fundamento se encuentra en la información contenida en 
una muestra aleatoria, puede estar equivocada. Sin una adecuada comprensión de las 
leyes básicas de la probabilidad, es difícil utilizar la metodología estadística de ma- 
nera efectiva. 

Para ilustrar el uso de la probabilidad en la toma de decisiones, considérese el si- 
guiente ejemplo: una compañía produce un detergente líquido que se envasa en bo- 
tellas de 500 mi, las que son llenadas por una máquina. Debido a que las botellas que 
contienen una cantidad mayor de 500 ml representan una pérdida para la compañía 
y todas aquellas que contienen una cantidad menor constituyen una pérdida para el 
consumidor (lo que puede desencadenar una acción legal en contra de la compañía), 
la compañía realiza todos los esfuerzos necesarios para mantener el volumen neto 
promedio en un nivel de 500 ml. Para mantener un control apropiado se ideó el si- 
guiente esquema de muestreo: se seleccionarán 10 botellas del proceso de llenado, 
cuatro veces durante el transcurso del día y se determinará su contenido neto prome- 
dio. Si éste se encuentra entre 498 y 502 ml, inclusive, el proceso se considerará 
“bajo control”; de otra manera, éste se encontrará “fuera de control”. En este caso 
se detendrá el llenado, llevando a cabo todos los esfuerzos necesarios para determi- 
nar la causa, si es que ésta existe, del problema. Con toda seguridad y para cual- 
quiera de las dos situaciones se tienen riesgos. Si el proceso se considera bajo 
control, podría encontrarse fuera de éste, y la compañía puede estar perdiendo el 
producto o sujetándose a una acción legal por parte de las correspondientes oficinas 
del gobierno. Por otro lado si el proceso se considera fuera de control, puede en rea- 
lidad encontrarse bajo control y la compañía estará intentando localizar una falla 
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inexistente. La evaluación de estos riesgos sólo puede hacerse de manera efectiva a 
través del uso de la probabilidad. 

En las tres secciones siguientes se examinarán las interpretaciones clásica, de fre- 
cuencia relativa y subjetiva, de la probabilidad. Las dos primeras son muy similares 
debido a que se basan en la repetición de experimentos realizados bajo las mismas 
condiciones, como el lanzamiento de una moneda. La interpretación subjetiva o per- 
sonal de la probabilidad representa una medida del grado de creencia con respecto a 
una proposición, como podría ser si la creación de una nueva empresa tendrá éxito. 
En la sección 2.5 se establecen algunos axiomas y, con base en éstos, se define for- 
malmente la probabilidad. El desarrollo axiomático incluye las tres interpretaciones 
de la probabilidad. 


2.2 La definición clásica de probabilidad 


El desarrollo inicial de la probabilidad se asocia con los juegos de azar. Por ejemplo, 
considérense dos dados que se distingan y que no están cargados; el interés recae en 
los números que aparecen cuando se tiran los dados. En la tabla 2.2 se dan los 36 po- 
sibles pares de números. 

Una característica clave de este ejemplo, así como también de muchos otros rela- 
cionados con los juegos de azar, es que los 36 resultados son mutuamente excluyen- 
tes debido a que no puede aparecer más de un par en forma simultánea. Los 36 resul- 
tados son igualmente probables puesto que sus frecuencias son prácticamente las 
mismas, si se supone que los dados no están cargados y que el experimento se lleva a 
cabo un número suficientemente grande de veces. Nótese que de los 36 resultados 
posibles, seis dan una suma de siete, cinco dan una suma de ocho, etc. Por Jo tanto, 
puede pensarse de manera intuitiva que la probabilidad de obtener un par de núme- 
ros cuya suma sea siete es la proporción de resultados que suman siete con respecto 
al número total, en este caso 6/36. Es importante que el lector comprenda que la 
proporción 6/36 se obtiene únicamente después de que el experimento se realiza un 
número grande de veces, es decir, después de efectuar el experimento muchas veces 
se Observará que, alrededor de la sexta parte de éste, la suma de los números que 
aparecen es igual a siete. La proporción 6/36 no significa que en seis tiradas, forzo- 
samente una dará como resultado un siete. Para situaciones de este tipo es apropiada 
la siguiente definición de probabilidad. 


Definición 2.1 Si un experimento que está sujeto al azar, resulta de n formas igual- 
mente probables y mutuamente excluyentes, y si n, de estos resultados tienen un 
atributo A, la probabilidad de A es la proporción de n, con respecto a n. 


TABLA 2.1 Posibles resultados que aparecen cuando se lanzan dos dados 


1,3 1,4 1,5 
2,3 2,4 2,5 
3,3 3.4 3,5 
4,3 4,4 4,5 
5,3 5,4 5,5 
6,3 6,4 6,5 
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2.3 Definición de probabilidad como frecuencia relativa 

En muchas situaciones prácticas, los posibles resultados de un experimento no son 
igualmente probables. Por ejemplo, en una fábrica las oportunidades de observar un 
artículo defectuoso normalmente será mucho más rara que observar un artículo 
bueno. En este caso, no es correcto estimar la probabilidad de encontrar un artículo 
defectuoso mediante el empleo de la definición clásica. En lugar de ésta, en muchas 
ocasiones se emplea la interpretación de Ía probabilidad como una frecuencia rela- 
tiva. 

La interpretación de una frecuencia relativa descansa en la idea de que un experi- 
mento se efectúa y se repite muchas veces, y prácticamente bajo las mismas condi- 
ciones. Cada vez que un experimento se lleva a cabo, se observa un resultado. Éste es 
impredecible dada la naturaleza aleatoria del experimento, la probabilidad de la pre- 
sencia de cierto atributo se aproxima por la frecuencia relativa de los resultados que 
posee dicho atributo. Conforme aumenta la repetición del experimento, la frecuen- 
cia relativa de los resultados favorables se aproxima al verdadero valor de la proba- 
bilidad para ese atributo, Por ejemplo: supóngase que se desea determinar la pro- 
porción de artículos defectuosos en un proceso de fabricación. Para llevar a cabo lo 
anterior, se muestra un determinado número de artículos; cada observación consti- 
tuye un experimento. Los resultados pueden clasificarse como defectuosos o no defec- 
tuosos. Si el proceso de fabricación es estable, y asegura así las condiciones unifor- 
mes, al aumentar el número de artículos muestreados, la frecuencia relativa de 
artículos defectuosos con respecto al número de unidades muestreadas se aproxima- 
rá cada vez más a la verdadera proporción de artículos defectuosos. 

Para ilustrar la interpretación de la probabilidad como frecuencia relativa se si- 
muló en una computadora un proceso de muestreo de n unidades, suponiendo que el 
proceso de fabricación producía un 5% de artículos defectuosos. Para cada n se ob- 
servó el número de unidades defectuosas; los resultados se dan en la tabla 2.2 para 
valores de n entre 20 y 10 000. A partir de esto es razonable concluir que la frecuen- > 
cia relativa tiende a un valor verdadero de 0.05 conforme n crece. De esta manera, se 
sugiere la siguiente definición de la probabilidad como frecuencia relativa: 


S 


TABLA 2.2. Resultados de un experimento simulado en computadora 


Número de unidades Número de unidades , SR Frecuencia 
muestreadas (n) defectuosas observadas — ` relativa 
20 a E 0.10 
50 A A E ` ; 0.06 ~ 
100 sy : y A Y at ; N 0.04 - 
200 sa e i 2o 0 aa 0.06 
500 a cado o AT pS 28 Oo E Pra e SN 0.056 
1 000. 4 54 e + 0.054 
2 000 97 , 0.0485 
5 000 244 ; 0.0488 
10 000 504 0.0504 
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Definición 2.2 Si un experimento se repite n veces bajo las mismas condiciones y 
np de los resultados son favorables a un atributo B, el límite de 11¿/n conforme n se 
vuelve grande, se define como la probabilidad del atributo B. 


2.4 Interpretación subjetiva de la probabilidad 


La repetición de un experimento bajo las mismas condiciones es la base para las in- 
terpretaciones clásica y de frecuencia relativa de la probabilidad. Sin embargo, 
muchos fenómenos no se prestan para repetición, pero a pesar de esto requieren 
de una noción de probabilidad. Por ejemplo la compañía que aseguró los Juegos 
Olímpicos de 1980 tuvo que determinar, a priori, los riesgos de que los juegos no se 
efectuasen de la manera en que se habían planeado. O cuando se aseguran contra 
robo o daño esculturas y pinturas cuyo valor es muy alto, las compañías aseguradoras 
deben tener idea de los riesgos adquiridos para fijar de manera adecuada, el precio 
del seguro. En ninguno de estos ejemplos puede concebirse un experimento suscep- 
tible de llevarse a cabo bajo condiciones similares. Por otra parte, muchas de las 
afirmaciones que suelen formularse las personas de algún modo implican probabili- 
dad. Por ejemplo, cuando se dice “probablemente el embarque llegará mañana”, o 
cuando un corredor de bolsa asesora a un cliente sobre la posible alza de una acción, 
se está sugiriendo alguna idea de la probabilidad de ocurrencia de las afirmaciones 
anteriores. 

Para los ejemplos anteriores, la interpretación de la probabilidad no puede tener 
su fundamento en la frecuencia de ocurrencia. La probabilidad se interpreta como el 
grado de creencia o de convicción con respecto a la ocurrencia de una afirmación. En 
este contexto, la probabilidad representa un juicio personal acerca de un fenómeno 
impredecible. Esta interpretación de la probabilidad se conoce como subjetiva o per- 
sonal. 

Es importante hacer hincapié en que la probabilidad subjetiva también puede 
aplicarse a experimentos repetitivos. Por ejemplo, un jugador de blackjack puede, en 
un momento dado, decidir tomar otra carta y hacer caso omiso de su experiencia 
previa, debido a que cree que esto aumentará sus oportunidades de ganar la mano. 
El capitán de un equipo de futbol puede pedir “cara”? cuando la moneda se lance al 
aire, debido a que ésa es su creencia con respecto al resultado de arrojarla. Con base 
en tales aplicaciones, la probabilidad subjetiva es considerada por muchos como 
más general que las otras dos interpretaciones. 

Para ilustrar la traslación de un grado de creencia en probabilidad, considere la 
siguiente situación: se pregunta a dos ingenieros petroleros, A y B, su opinión acerca 
de la posibilidad de descubrir petróleo en un determinado sitio. La respuesta de A es 
que él está seguro, en un 80%, de que se encontrará petróleo mientras que B lo está 
en un 70%.* El porcentaje dado por los ingenieros es una medida de la creencia de 
éstos, con respecto al descubrimiento de petróleo. De esta manera se pueden asignar 
distintas medidas de creencia a la misma proposición. Pero ¿qué significado tienen . 
realmente el 80% y 7%? La interpretación común es la siguiente. El i ingeniero A pien-. 


* Por implicación, AyB también están diciendo que se encuentran seguros, en un 20% y 30%, repeti 
vamente, de que no será descubierto el petróleo. i 
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sa apostar ocho a dos (por ejemplo $8 contra $2 o cualquier otra cantidad de dólares 
que se encuentre en la misma proporción) a que el petróleo será descubierto en ese si- 
tio. De manera similar, B cree que es mejor apostar siete a tres (es decir $7 contra $3) 
para el mismo resultado. De esta manera, las probabilidades subjetivas de A y B se 
definen como las proporciones 8/(8 + 2) y 7/(7 + 3) respectivamente. En general si 
las apuestas en favor de una afirmación son de c a d, la probabilidad de ésta es 
c/(c + d). 


2.5 Desarrollo axiomático de la probabilidad 


Para formalizar la definición de probabilidad, a través de un conjunto de axiomas, 
se repasarán brevemente los conceptos básicos de la teoría de conjuntos (o eventos), 
sobre los cuales se fundamenta la definición formal de probabilidad. Esta definición 
es tan general que permite incorporar las distintas interpretaciones de la probabili- 
dad, mencionadas anteriormente. 

La colección de todos los posibles resultados de un experimento aleatorio es im- 
portante en la definición de la probabilidad. Para definir esta colección considérense 
los siguientes experimentos: el número de reservaciones no canceladas para un 
vuelo, el número de llegadas a un servicio o la duración de un determinado compo- 
nente. Todos son ejemplos de fenómenos impredecibles con un determinado número 
de posibles resultados. El número de reservaciones no canceladas puede ser cual- 
quier entero positivo no mayor que el número de asientos del avión; el número de 
llegadas puede ser, teóricamente, cualquier entero positivo sin ningún límite, y la du- 
ración de un componente puede ser cualquier número real positivo. Lo anterior 
lleva, de manera inmediata, a la siguiente definición: 


Definición 2.3 El conjunto de todos los posibles resultados de un experimento 
aleatorio recibe el nombre de espacio muestral. 


El conjunto de todos los posibles resultados puede ser finito, infinito numerab:e 
o infinito no numerable. Por ejemolo, el número de reservaciones sin cancelar cons- 
tituye un espacio muestral finito, dado que este número nunca excederá la capacidad 
del avión, que es finita. El número de llegadas al servicio constituye un espacio 
muestral infinito numerable, dado que es posible colocar ¿os resultados en una co- 
rrespondencia uno a uno con los enteros positivos, que constituyen un conjunto 
infinito pero numerable. La duración de una componente constituye un espacio 
muestral infinito innumerable, dado que ésta puede ser cualquier número real positi- 
vo. En este momento, es conveniente dar las siguientes definiciones. 
Definición 2.4 ` Se dice que un espacio muestral es discreto si su resultado puede 
ponerse en una Correspondencia uno àuno con el conjunto de los enteros positivos. 


E siR a: qu: 


Definición 2 58e dice que un espacio muestral es contínuo si sus resultados consis- 


ten de uf P intervalo de números reales. A 


a 
Yj 


Con respecto a los resultados de un espacio muestral, se puede estar particular- 


mente interesado en un subconjunto de éstos. Por ejemplo, un gerente de cierta línea 
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aérea desea saber si el número de reservaciones sin cancelar es menor que cinco, o 
bien un comprador de baterías desea saber si éstas tendrán una operación normal 
mayor de 40 horas. De esta manera, se tiene la siguiente definición: 


Definición 2.6 Un evento del espacio muestral es un grupo de resultados conteni- 
dos en éste, cuyos miembros tienen una característica común. 


Por característica común debe entenderse que únicamente un grupo de resulta- 
dos en particular satisface la característica y los restantes, contenidos en el espacio 
muestral, no. Se dice que ha ocurrido un evento si los resultados del experimento 
aleatorio incluyen a algunos de los que definen al evento. En este contexto, el espa- 
cio muestral, evento en sí mismo, puede entenderse como un evento seguro, puesto 
que se tiene un 100% de certidumbre de que ocurrirá un resultado del espacio 
muestral cuando el experimento se lleve a cabo. Para completar se dan las siguientes 
definiciones: 


Definición 2.7 El evento que contiene a ningún resultado del espacio muestral re- 
cibe el nombre de evento nulo o vacío. 


Deberán recordarse algunas definiciones de la teoría de eventos. Sean E, y E, 
cualesquiera dos eventos que se encuentren en un espacio muestral dado denotado 


por $. 


Definición 2.8 El evento formado por todos los posibles resultados en E, o E, o en 
ambos, recibe el nombre de la unión de E, y E, y se denota por E, U E.  ' 


Definición 2.9 El evento formado por todos los resultados comunes tanto a E, 
como a E, recibe el nombre de intersección de E, y E, y se denota por E, N E. 


Definición 2.10 Se dice que los eventos E, y E, son mutuamente excluyentes o dis- 
juntos si no tienen resultados en común; en otras palabras E, N E, = Ø = evento 
vacío. 


Definición 2.11 Si cualquier resultado de E, también es un resultado de E,,se dice 
que el evento E, está contenido en E,, y se denota por E, C Ej. 


Definición 2.12 El complemento de un evento E con respecto al espacio muestral 
S, es aquel que contiene a todos los resultados de S que no se encuentran en E, y se de- 
nota por E. 


Las definiciones anteriores pueden demostrarse de mañera gráfica mediante el 
uso de los diagramas de Venn, como se muestra en la figura 2.1. _. 

Como ejemplo, considérese el experimento de lanzar un dado; el espacio 
muestrales S (1, 2, 3, 4, 5, 6). Se definen los:eventos E, = (2; 4;6); EE (1; 3), 
y E, = (2, 4). Es fácil verificar que E, U E, = (1, 2, 3, 4, 6), Er N E; =:(Q,:- 
4), E, N Ez =ý, Es se encuentra rip contando en Er y Es = 
(2, 4,5, 6).* TEAN a Loin a Fat ta aT 
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FIGURA 2.1 Diagramas de Venn que ilustran a) la unión de dos eventos; b) la intersección 
de dos eventos; c) eventos mutuamente excluyentes; d) un evento contenido en otro, y e) un 
evento y su complemento 


La probabilidad es un número real que mide la posibilidad de que ocurra un re- 
sultado del espacio muestral, cuando el experimento se lleve a cabo. Por lo tanto, la 
probabilidad de un evento también es un número real que mide la posibilidad colec- 
tiva, de ocurrencia, de los resultados del evento cuando se lleve a efecto el experi- 
mento. A continuación se da la definición axiomática de la probabilidad. 


Definición 2.13 Sean S cualquier espacio muestral y E cualquier evento de éste. Se 
llamará función de probabilidad sobre el espacio muestral S a P(E)si satisface los si- 
guientes axiomas: 


1. P(E)>0 
2. P(S) = 
3. Si, para los eventos E, E,, E), ..., 
E.NE,= Ø para toda i £ j, entonces 
P(E, U E U +) = P(E;) + P(E) + :* 
La razón de estos tres axiomas se convierte en aparente cuando, por ejemplo, se 
recuerda la interpretación de la probabilidad como una frecuencia relativa. Es decir, 


la probabilidad de un evento refleja la proporción de veces en que ocurrirá cuando el 
experimento se repita. Los axiomas también son evidentes para la interpretación 
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subjetiva de la probabilidad, dado que para ésta cualquier grado de creencia se con- 


`, vierte en’ una proporción. De ahí que las probabilidades exhiban las características 


de las proporciones, en las que la probabilidad es un número entre cero y uno, y 
dado que es forzoso que ocurra un resultado cuando se lleva a efecto un experimen- 
to, la probabilidad de S es uno. Además si no hay ningún resultado en común entre 
dos eventos E, y E,,la probabilidad de que ocurra E, o E, es igual a la proporción de 
véces en que ocurre E, más la proporción de veces en que ocurra E). 

En seguida se demostrarán algunas de las consecuencias de estos tres axiomas. 


Teorema 2.1 PQ) - = 


Demostración: 
“SUB=S y SNP=9. 
Por el axioma 3, 
P(S U Ø) = P(S) + PØ); 


pero por el axioma 2, P(S) = 1, y de esta manera P(Ø) = 
Teorema 2.2 Para cualquier evento E C S, 0 < PŒ) < 


Demostración: Por el axioma 1, P(E) > 0; de aquí que sólo es necesario pro- 
bar que P(E) = 1. 


EVUE=S y ENE=Y94. 
Por los axiomas 2 y 3, 
| P(E U E) = P(E) + PÆ) = P(S) = 
dado que P(E) > 0, P(E) = 


El axioma 3 da la probabilidad de la unión de dos eventos disjuntos. Por otro 
esta porción de la suma de P(A) y P(B). El teorema se reduce al axioma 3 cuando 
la probabilidad de la unión de dos eventos que no son, necesariamente, disjuntos? 
Para dar respuesta a las preguntas anteriores se enuncia el siguiente resultado gene- 
ral, el que usualmente recibe el nombre de regla de adición de probabilidades. 


Teorema 2.3 Sea S un espacio muestral que contiene a cualesquiera dos eventos 4 
y B; entonces, 


P(A U B) = P(A) + P(B) — P(A N B). 
Aun cuando no se pretende dar aquí una demostración formal del teorema, éste 


es intuitivamente razonable. P(A) y P(B) reflejan el número de veces en que ocurri- 
rån los resultados de A y B, respectivamente. Sin embargo, y teniendo en cuenta lo 
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anterior, los resultados comunes serán contados dos veces con la necesidad de restar 
esta porción de la suma de P(A) y Él El teorema se reduce: al axioma 3 cuando 
los; eventos son as ps KiS = A AF he i 
Ejemplo 2.1- Un sistema contiene dos componentes A y B, y se conecta de ma- 
nera que éste funciona si:cualesquiera de las componentes funciona. Se sabe que la 
probabilidad de que A funcione es P(A) = 0.9 y la de B es P(B) = 0.8 y la probabi- 
lidad de ambos es P(A N B) = 0.72. Determinar la probabilidad de que el sistema 
funcione. 

La probabilidad de que el sistema trabaje es igual a la probabilidad de la unión 
entre A y B; de esta manera, 


P(A U B) = P(A) + P(B) - P(A N B) 
= 0.9 + 0.8 — 0.72 = 0.98. 


2.6 Probabilidades conjunta, marginal y condicional 


En esta sección se examinan los conceptos de probabilidad conjunta, marginal y 
condicional, y se desarrolla la ley de multiplicación de probabilidades. Considérese un 
experimento en el que se elige aleatoriamente una persona adulta que viva en una 
ciudad con n personas adultas, y se anotan sus características con respecto a su hábi- 
tos de fumador y su sexo. Sea el espacio muestral la población de adultos de la 
ciudad, que se divide en los siguientes eventos disjuntos: fumador A, y no fumador 
A-, hombre B, y mujer B,. Los eventos en S pueden representarse como se muestra 
en la tabla 2.3. 

Como ejemplo, nótese que n, de los n adultos son hombres que fuman, por lo 
que son poseedores de los atributos A, y B,. Supóngase que se desea determinar la 
probabilidad de ocurrencia simultánea de los eventos A, y B,. Mediante el empleo de 
la interpretación de frecuencia relativa, puede argumentarse que, dado que exacta- 
mente niz de los n adultos poseen ambos atributos, A, y B,, la probabilidad es n,,/n. 
Esta última recibe el nombre de probabilidad conjunta puesto que se insiste en la 
probabilidad de resultados comunes a ambos eventos 4, y B,. Por lo tanto la proba- 
bilidad de los eventos A, y B, está dada por 


P(A, N B;) = ni /n. 


TABLA 2.3 Clasificación de n adultos mediante su sexo y hábitos de fumadores 
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Supóngase que ahora el interés recae en determinar la probabilidad:A,, sin consi- 
derar cualquier otro evento B, del espacio muestral S. Para especificar, supóngase 
que se necesita la probabilidad del evento A. Haciendo uso de nuevo de la interpre- 
tación de frecuencia relativa, el número total de personas no fumadoras ea es ny 
+ nn; de esta manera se tiene no e O E 


P(A) = > (na + m3)/n. 


Este tipo de probabilidad se conoce como marginal porque para determinarla se ig- 
noran una o más características del espacio muestral. De lo anterior se sigue que 


2 


P(A,) = SY n;/n, 


j=4 
pero dado que 
2 


P(A;) = Y P(A; N B,). 


j=1 


En otras palabras, la probabilidad marginal de un evento A, esigual a la suma de las 
probabilidades conjuntas de A; y B,, donde la suma se efectúa sobre todos los even- 
tos B,. De manera similar la probabilidad marginal de B, está dada por 


2 
P(B,) = Y P(A; N B;). 


En este punto yadebe ser obvia la extensión para incluir más de dos eventos disjuntos. 

Finalmente, supóngase que el interés recae en determinar la probabilidad de un 
evento A;, dado que ha ocurrido el evento B,. Por ejemplo, regresando a la tabla 
2.3, supóngase que se ha elegido aleatoriamente una mujer adulta. (B2) Ahora bien, 
¿cuál es la probabilidad de que fume? Una vez más, el argumento descansa sobre la 
interpretación de frecuencia relativa. Sin embargo, una vez que el evento “*mujer”” 
ha ocurrido, éste reemplaza a S como el espacio muestral de interés. Por lo tanto, la 
probabilidad de tener un fumador (4 ,) es el número de mujeres que fuman (+1,>) 
entre el número total de estas (n, + n>,).Por lo tanto 


P(A |B?) = n/n + nn), 


donde la barra vertical se lee como “*dado que” y separa al evento A,, cuya probabi- 
lidad está condicionada a la previa ocurrencia del evento B,. Ésta recibe el nombre 
de probabilidad condicional de A, dada la ocurrencia de B,. En general, se tiene que 


i 


2 
PIAJB) = n;/ Y ny, (2.1) 
i=1 
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y por simetría, 2000 louis ea aa A RAR AA 
PEM: = mln Mu: Kiye ES 0, » 
akg o us ay Rima S% na 


Al dividir el namerador y devo miador del miembro derecho de e. D por n, se tiene 


` pajp) = -2 


2 n;/n 


i=1 


pero 
y 
2 
P(B;) = 2 nn; 
i=] 
por lo tanto 
_PANB) 
P(ALB;) = TPB) , P(B) >0, (2.3) 
y de manera equivalente 
P(A; N B;) 
P(B]A;) = PA) > P(A) > 0. (2.4) 


Para definir las probabilidades conjunta, marginal y condicional se ha empleado 
un ejemplo específico en el que el espacio muestral contiene únicamente un número 
finito de resultados. Sin embargo, las definiciones dadas aquí son completamente 
generales y pueden extenderse para incluir cualquier espacio muestral ya sea discreto 
o continuo. Con base en lo anterior se define de la siguiente manera. 


Definición 2.14 Sean Ay B cualesquiera dos eventos que se encuentran en un espa- 
cio muestral S de manera tal que P(B) > 0. La probabilidad condicional de A al 
ocurrir el evento B, es el cociente de la probabilidad conjunto de A y B con respecto 
a la probabilidad marginal de B; de esta manera se tiene 


P(A NB) 


P(A|B) = NT 


P(B) > 0. (2.5) 


La relación entre (2.5) puede escribirse como un producto, lo que da como resul- 
tado la regla de multiplicación de probabilidades, dada por 


P(A N B) = P(B)P(A|B). (2.6) 


| 


eu 


Entan 


e at 
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Por simetría, la decai condicional de B dada la ocurrencia de A, esoo a 


„PAND, PA > 0, pi È LUHA eom 


pS "PBA = TPA) ipo des 


De esta manera se tiene 
P(A N B}-= P(A)PIBJA) 

que es otra versión de la regla de multiplicación, la que implica que 
_P(A)P(BIA) = P(BJP(A|B). (2.7) 


La definición 2.14 EAN extenderse para incluir cualquier número de eventos 
que se encuentren en el espacio muestral. Por ejemplo, puede demostrarse que para 
tres eventos A, By C 


PMANBNC) 


P(AIB N C) = a 


P(B N C)>0 (2.8) 


PANBnNCc) 


PO) , P(C)>0. (2.9) 


PAN BIC) = 


Los siguientes ejemplos ilustrarán los conceptos presentados en esta sección. 


Ejemplo 2.2 A los habitantes de una gran ciudad se les hizo una encuesta con el 
propósito de determinar el número de lectores de Time y Newsweek. Los resultados 
de la encuesta fueron los siguientes: 20% de los habitantes leen el Time, el 16% lee el 
Newsweek y un 1% lee ambos semanarios. Si se selecciona al azar a un lector de 
Time, ¿cuál es la probabilidad de que también lea el Newsweek? 


Sean A y Blos eventos que representan el número de lectores del Time y News- 
week respectivamente; dado que P(A) = 0.2, P(B) = 0.16 y P(A N B) = 0.01, 


P(BÍA) = 0.01/0.2 = 0.05. 


Por otra parte, también puede determinarse la probabilidad de que un lector del 
Newsweek lea también el Time; esto es 


P(A]B) = 0.01/0.16 = 0.0625, 
y se verifica la relación P(A)P(BIA) = P(B)P(A|B), o (0.2X(0.05) (0.16)(0.0625). 


Ejemplo 2.3 Muchas instituciones bancarias emplean modelos computarizados de 
crédito con el propósito de dar un determinado puntaje a todas las solicitudes 
de préstamo. Este puntaje se emplea como una ayuda para decidir cuándo se otorga 
el préstamo. Supóngase que el 3% de todos los préstamos que se otorgan presentan 
problemas por incumplimiento de pago y que los modelos de crédito son precisos en 
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un 80% al predecir menos créditos. Si el 85% de todas las solicitudes reciben pun- 
tuaciones favorables por los modelos computarizados y se les otorga el préstamo, 
determinar la probabilidad de que una solicitud que recibe una puntuación favo- 
rable y a la que se le otorga el préstamo, no presente ningún problema para el pago 
de éste. 


Sea A el evento incumplimiento de pago y B la puntuación favorable. Del 
enunciado del problema se tiene que P(A) = 0.03, P(B) = 0.85 y P(BÍA) = 0.8, en 
donde A es el complemento de A, es decir, el evento cumplimiento de pago. Lo que 
se busca es la probabilidad condicional de que no exista ningún problema en el pago 
del préstamo, dado que la solicitud obtuvo una puntuación favorable, o P(A]B). 
Usando la relación (2.7), se tiene 


P(BP(A|B) = P(AJP(BÍA), 


om PODP(BÍA) 
PARIS P(B) ” 
y dado que P(A) = 0.97, la probabilidad deseada es P(A|B) = 0.9129. 


Ejemplo 2.4 Una planta recibe reguladores de voltaje de dos diferentes proveedo- 
res, B, y B2; el 75% de los reguladores se compra a B, y el resto a B,. El porcentaje 
de reguladores defectuosos que se reciben de B, es 8% y el de B, es 10%. Determinar 
la probabilidad de que funcione un regulador de voltaje de acuerdo con las especifi- 
caciones (es decir, el regulador no está defectuoso). 


Sea A el evento el regulador de voltaje es no defectuoso. Es claro que ningún re- 
gulador de voltaje puede ser vendido tanto por B, como por B,; por lo tanto B, y B, 
son disjuntos. Esto da como resultado 


P(A) = P(A N B) + P(A N B3), 


pero 
P(A N B,) = P(B )P(AÍB,) 


P(A N B,) = P(B,)P(A|B,), 


en donde se conocen P(B,) = 0.75, P(B,) = 0.25, P(A|B,) = 0.92, y P(AÍB,) = 
0.9; sustituyendo 


P(A) = P(B )P(A|B,) + P(B,)P(A|B,) 
= (0.75X0.92) + (0.25)(0.90) = 0.915. 


Nótese que en el ejemplo 2.4 se tienen únicamente dos proveedores, B, y B2. En 
general, si existen n alternativas disjuntas B,, B, ... B,, la probabilidad total de un 


Bj, B2, ...» Bis 
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_ resultado final, por ejemplo A, está dada por +. 


- P(A) = Y P(B)P(A]B). (2.10) 
ist 
X 


Xx 
` 


2.7 Eventos estadísticamente independientes 


Al considerar la probabilidad condicional de algún evento A, dada la ocurrencia de 
otro evento B, siempre se implica que las probabilidades de A y B son de alguna ma- 
nera dependientes entre sí. En otras palabras, la información con respecto a la 
ocurrencia de B afectará la probabilidad de A. Supóngase que la ocurrencia de B no 
tiene ningún efecto sobre la probabilidad de A, en el sentido de que la probabilidad 
condicional P(A|B) es igual a la probabilidad marginal P(A), aun a pesar de que ha- 
ya ocurrido el evento B. Esta situación origina un concepto muy importante que se 
conoce como independencia estadística. 


Definición 2.15 Sean A y B dos eventos cualesquiera de un espacio muestral S. Se 
dice que el evento A es estadísticamente independiente del evento B si P(A|B) = P(A). 


-~ Algunas consecuencias de la definición 2.15 se convierten en evidentes en este 
momento, dado que 


_ P(AN B) 
si A es independiente de B, 
P(ANB 
P(A|B) = P(A) = Eao 


P(A N B) = P(A)P(B). 
Además, puesto que 
P(A N B) = P(A)P(BIA), 
entonces | 
P(A)P(B) = P(A)P(BLA) 


P(B) = P(BIA). 


Por lo tanto, puede concluirse que si un evento A es estadísticamente independiente 
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de B, entonces el evento B es independiente de A y se verifican las tres relaciones:si- 
guientes: ; i E e 
E a A 
2. P(BIA) = P(B), y 
i 3. P(A N B) = P(A)P(B). 


2 


Con la siguiente definición se extenderá el concepto de independencia estadística. 


Definición 2.16 Los eventos A,, A, ... A, de un espacio muestral S son estadística- 
mente independientes si y sólo si la probabilidad conjunta de cualquier 2, 3 ... k de 
ellos es igual al producto de sus respectivas probabilidades marginales. 


De csta manera, los eventos A, B y C son estadísticamente independientes, sí y 

sólo si 

1. P(A N B) = P(A)P(B), 

2. P(A N C) = P(A)P(C), 

3. P(B N C) = P(B)P(C), y 

4. P(A N BN C) = P(A)P(B)P(C) 
Ejemplo 2.5 Un sistema contiene cinco componentes que se encuentran conectadas 
entre sí como se muestra en la figura 2.2, donde las probabilidades indican ła seguri- 
dad de que la componente funcione adecuadamente. Si se supone que el funciona- 


miento de una componente en particular es independiente del de las demás, ¿cuál es 
la probabilidad de que el sistema trabaje? 


P(B) = 0.90 P(D) = 0.93 


P(A) = 0.98 


P(C) = 0.95 P(E) = 0.97 


FIGURA 2.2 Configuración de un sistema con cinco componentes 
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- Establecida la suposición de independencia, el sistema puede trabajar si las com? 
ponentes A y B y/o C, y D y/o E lo hacen. De esta manera, la provabiidad de que eb 
sistema ¡Rabal PF), puede paari como a Pe AtaHPU ESIIN aio 
PE) = PA)PBU OPDU E) o 


pero nótese que `P(B U C)=1-— PB)P(C) y ADU E)=1-— POPE)» 
porque, por ejemplo P(B)P(C) es la probabilidad de que: no trabaje la componente 
B y tampoco la C. Por lo tanto, i 


-  P(F) = (0.98)(0.995)(0.9979) = 0.973. 


A 


2.8 El teorema de Bayes 


Recuérdese el ejemplo 2.4. Supóngase que cuando se reciben los reguladores de vol- 
taje se almacenan de manera tal que no puede distinguirse el proveedor. Además, su- 
póngase que se desea determinar la probabilidad de que un regulador en particular 
fue vendido por el proveedor B, cuando se sabe que funciona de acuerdo con las es- 
pecificaciones. En este caso se busca la probabilidad condicional de B, dada la 
ocurrencia del evento 4. Por lo tanto 


_ P(B,NA) 
P(BJA) = 7 ` 
pero 
P(B, N A) = P(B,)P(A|B,) 
y 
_ P(BJP(A]B,) 
P(BJA) = AA) ; 
así que, 
_ (0.25X(0.9) _ 
P(B)|A) = os 7 02499. 


Se puede generalizar el método empleado para resolver este problema, con el fin 
de originar el teorema de Bayes. 


Teorema 2.4 Si B,, B,, ..., 3, son n eventos mutuamente excluyentes, de los 
cuales uno debe ocurrir, es decir *;_, P(B,) = 1, entonces 
P(B)P(A|B, 
Peja) = Era) Er E l, 2, aa M. (2.11) 


X, P(BJP(A|B,) 


La expresión dada por (2.11) fue desarrollada por el reverendo Thomas Bayes 
(1702-1761) y se conoce como teorema de Bayes. A primera vista no es más que 
una aplicación de las probabilidades condicionales. Sin embargo, ha sido clave en el 
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desarrollo de la inferencia estadística bayesiana en la,que-se emplea la interpreta- 
ción subjetiva de la probabilidad. Tal como se indicó en el capítulo uno, la inferen- 
cia bayesiana no se tratará con detalle en este libro, Sin embargo, se considerarán: 
algunas cuestiones bayesianas de vez en cuando, de manera que el lector pueda obte- 
ner una mejor perspectiva de la inferencia estadística: Los Apu son ejemplos del 
análisis bayesiano. . 

Supóngase que un investigador conduce un experimento en el que sabe que el re- 
sultado de interés estará afectado por cualquiera de las n alternativas B,, B, ... B, 
que predomine. A pesar de que no está seguro cuál de todas las alternativas predo. 
minará, posee cierta información con base en la cual está dispuesto a formular un 
juicio subjetivo para las probabilidades de ocurrencia de las n alternativas. De esta 
forma, asigna probabilidades P(B), P(B.) ... P(B,) para las n alternativas antes de 
obtener cualquier evidencia experimental. Dado que estas probabilidades reflejan el 
juicio o graao de creencia del investigador con respecto a las ocurrencias de B,, B, ... 
B,, antes de que éstas se presenten se conocen como pro+ab'lidades a priori. Con 
ello el investigador obtendrá una evidencia experimental a partir de un conjunto de 
datos que se denota por A, y se observa bajo una alternativa específica B;. En este 
momento se pueden calcular las probabilidades condicionales P(A|B,). Éstas permi- 
tirán la determinación de la probabilidad B, dada la evidencia experimental A, me- 
diante el empleo del teorema de Bayes. Las probabilidades condicionales P(BJA), j 
= 1, 2, ..., 1 se conocen como probabilidades a posteriori porque se determinan 
una vez obtenida la evidencia experimental. Por lo tanto, las probabilidades P(B,|A) 
reflejan el grado de creencia corregido con respecto a las alternativas B,, B,, ... B 
después de obtener los datos experimentales. 


Ejemplo 2.6 Durante los últimos años se ha escrito mucho sobre la posible rela- 
ción entre el fumar y el cáncer pulmonar. Supóngase que en un centro médico, de to- 
dos los fumadores de quienes se sospecha que tenían cáncer pulmonar, el 90% lo tenía 
mientras que únicamente el 5% de los no fumadores lo padecía. Si la proporción de 
fumadores es de 0.45, ¿cuál es la probabilidad de que un paciente con cáncer pulmo- 
nar, seleccionado al azar, sea fumador? 


n 


Sean B, y B- los eventos ““el paciente es fumador” y ‘‘el paciente es no fumador” 
respectivamente, y sea A el evento ““el paciente tiene cáncer pulmonar”. B, y B, son 
las alternativas que pueden predominar. Se supone que las probabilidades a priori, 
para estas dos alternativas, son 0.45 y 0.55 respectivamente. Si un paciente tiene o 
no cáncer pulmonar puede estar afectado por cualquiera de las dos alternativas que 
predominen y que constituyen la evidencia experimental. Se sabe que P(A]B,) = 0.9 
y P(A|[B,) = 0.05. Se desea determinar la probabilidad a posteriori de selec- 
cionar un fumador, puesto que el paciente tiene cáncer, o P(B,lA). 

Del teorema de Bayes se tiene 


P(B )P(A|B,) 
P(B)P(A|B,) + P(B.)P(AIB,) 
z (0.45)(0.9) 

(0.45)(0.9) + (0.55)(0.05) 
= 0.9364. 


P(B A) = 
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_La probabilidad de que. un paciente con cáncer pulmonar, seleccionado’ ajesto” 
riamente sea. tumiador, es de 0.9364. : ; uregit i E 
sarao dia i sb añobe 
Ejemplo 2.7. Una compañía estudia la ¿canercialización de un nuevo ponia: 
El presidente de la compañía desea que el producto sea superior al de su más cercano 
competidor. Con base en una evaluación preliminar que realizó el personal clave, se 
decide asignar una posibilidad del 50% de que el producto sea superior al ofrecido 
por el competidor, 30% de que tenga la misma calidad y un 20% de que sea inferior. 
Un estudio de mercado sobre el producto concluye que éste es superior al del compe- 
tidor. Con base en la experiencia sobre los resultados de las encuestas, se determina 
que si el producto realmente es superior, la probabilidad de que la encuesta alcance 
la misma conclusión es 0.7. Si el producto tiene la misma calidad que el del competi- 
dor, la probabilidad de que la encuesta dé como resultado un producto superior es 
0.4. Si el producto es inferior, la probabilidad de que la encuesta indique un produc- 
to superior es de 0.2. Dado el resultado de la encuesta, ¿cuál es la probabilidad, 
corregida, de obtener un producto superior? 


` Este es un ejemplo en el que ilustra cómo una organización puede actualizar y re- 
visar las probabilidades iniciales al tener disponible nueva información. Sean B,, B, 
y B, los eventos el producto es superior, tiene la misma calidad y es inferior al del 
competidor, respectivamente. Las probabilidades a priori correspondientes son 0.5, 
0.3 y 0.2. Sea A el evento ““la encuesta revelará un producto superior””. Las proba- 
bilidades condicionales que involucran una evidencia experimental son P(A|B,) = - 
0.7, P(A]B,) = 0.4 y P(A|B;,) = 0.2. La probabilidad a posteriori P(B,|A) desea- 
da es: 


P(B)P(A|B) 
P(B,)P(A|B,) + PIBIP(A]B,) + P(By)P(A|B,) 


= 0.6863. 


P(B 4) = 
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Para calcular las probabilidades de varios eventos es necesario contar el número de 
resultados posibles de un experimento, o contar el número de resultados que son fa- 
vorables a un evento dado. El proceso de conteo puede simplificarse mediante el 
empleo de dos técnicas de conteo denominadas permutaciones y combinaciones. 

Una permutación es un arreglo en un orden particular, de los objetos que forman 
un conjunto. Por ejemplo, considere las diferentes formas en que pueden situarse las 
letras a, b y c. Para la primera posición puede elegirse a cualquiera de las tres letras; 
para la segunda se puede escoger a cualquiera de las dos restantes y para la tercera 
debe seleccionarse la letra que no se utilizó. Así existen 3 x 2 x 1 = 6 maneras en las 
que pueden arreglarse tres letras. Los seis arreglos o permutaciones son: 


abc, acb, bac, bca, cab, cba. 
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empleando el mismo razonamiento, el número total de maneras en que pueden 
arreglarse las letras a, b, cy des4 x 3 x 2 x 1 = 24. En general, el número de per- 
mutaciones de n objetos diferentes es: : 


nín — Din - 2) = (20. A Q.12) 


El producto de un entero positivo por todos los que le preceden se denota por n! 
y see lee ““n factorial”. Por ejemplo, 2! = 2 x 1=2,31=3x2x1=6,4! =4 
x3x2x1= 24, etc. Nótese que de (2.12) se tiene: 


nn - Di =n! 


(n — 1)! = nn. 


De esta manera, cuando n = 1, se define a 0! = 1. 

En este punto se examinarán las permutaciones de n objetos, si únicamente r < n 
de éstos se emplean en cualquier ordenamiento. Igualmente, para la primera posi- 
ción se puede seleccionar cualquiera de los n objetos, para la segunda uno de los res- 
tantes n — 1, y se continúa el procedimiento hasta la r-ésima posición. En este 
momento se han empleado r — 1 objetos, quedando n — (r — 1), a partir de los cuales 
se hace la selección. Por lo tanto, el número de permutaciones de n objetos si se toma 


ra la vez es: 


Pin, ry* = n(n — Dn- 2) (n= r+1) 


_ nía — Día — 2) ++ (n — r + Mn — r)! 
(n — r)! 
n! a 
Ta (2.13) 


Nótese que si r = n, (2.13) se reduce al resultado anterior P(n, n) = n!, o el número 
de permutaciones de n objetos, tomando n a la vez, es n!. 


Ejemplo 2.8 En muchos Estados de la Unión Americana, las placas de los automó- 
viles, se identifican por tres letras y tres números. ¿Cuál es el número total si ningu- 
na letra de placas posible puede usarse más de una ocasión en la misma placa? ¿Cuál 
es el número total sin esta restricción? 


Con la restricción, el número de permutaciones que puede obtenerse con las 26 
letras del alfabeto, tomadas tres a la vez, es: 
26! 26 x 25 x 24 x 23! 


P(26, 3) = 317 3 = 15 600. 


* Esta es una de las muchas formas de denotar el número de permutaciones de n objetos tomando r a la 
vez. Otros simbolos empleados son ,P,, P7, P,, y (n),. 


| 
| 
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Dado que a cada uno de los 15 600 arreglos de tres letras se les puede asignar 1 000 
diferentes números de tres dígitos (000-999), el número total. de placas es de 
15 600 000. Sin la restricción, que es la práctica usual, las seis posiciones en una 
placa de automóvil pueden ocuparse de la siguiente forma: cada una de las tres pri- 
meras posiciones puede ocuparse de 26 maneras diferentes, mientras que cada una 
de las tres posiciones restantes puede ocuparse en una de diez formas posibles; dado 
que existen 26 letras y diez números, respectivamente. De esta manera el número to- 
tal de placas de automóvil es 26 x 26 x 26 x 10 x 10 x 10 = 17 576 000. 

Una combinación de los objetos de un conjunto es una selección de éstos sin im- 
portar el orden. Se entenderá por el número de combinaciones de r objetos tomados 
de un conjunto que contiene a n de éstos, al número total de selecciones distintas en 
las que cada una de éstas contiene r objetos. La diferencia entre una permutación y 
una combinación es que en la primera el interés se centra en contar todas las po- 
sibles selecciones y todos los arreglos de éstas, mientras que en la segunda el interés 
sólo recae en contar vi numero de selecciones diferentes. De esta manera abc y acd 
-on diferentes combinaciones de tres letras, mientras que acd y adc son distintas per- 
mutaciones de la misma combinación. Puede obtenerse el número de combinaciones 
de n objetos tomando r a la vez (denotada por (7) y que se lee **n combinación r””), 
dividiendo el correspondiente número de permutaciones por r’ dado que en cada 
combinación existen r/ permutaciones. Por lo tanto: l 


T = P(n, r)/r! 


n! 
> a ai (2.14) 


De (2.14) puede notarse que: 


(s)- n! Si 
n) (n-n!n ? 


EE 
0) (n-00 ” 


n! 


E 
n= 1 [n — (n — Din — 1)! ? 


PUE E n! = (7) 
n=-r]} [n-in- n- Nr) 


Dos ejemplos especificos son: 


a E A 
2 6-22 3121. >” 


* Otros símbolos comúnmente empleados para denotar el número de combinaciones de n objetos, toman- 
do ra la vez, son C(n,r), ,C,, C3, y Cne- 
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10) 10Y 2 10! — -10x9x8!_, 
18) 2) (10- 291217 — 8!21 > 


Ejemplo 2.9 Supóngase que van a enviarse cinco jueces federales a cierto Estado. 
El jefe del senado estatal envía al presidente una lista que contiene los nombres de 
diez hombres y cuatro mujeres. Si el presidente decide que de los cinco jueces tres de- 
ben ser hombres y dos mujeres ¿de cuántas maneras puede lograrse lo anterior, 
empleando a los candidatos de la lista? 


El número de maneras distintas en que pueden seleccionarse tres hombres de 
entre diez es: 


= 120. 


10) 10x9x8x7! 
3) 7131 


Asimismo, el número de maneras en que pueden seleccionarse dos mujeres de entre 


cuatro es: NS 
AMEE EEFE 
2 aroo 


Puesto que el número de maneras en que pueden seleccionarse tres hombres de entre 
diez es 120, y el de dos mujeres de entre cuatro es seis, el número de maneras en que 
ambos eventos pueden ocurrir es: 


(56) 7 
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Ejercicios 


2.1. Los empleados de la compañía New Horizons se encuentran separados en tres divi- 
siones: administración, operación de planta y ventas. La siguiente tabla indica el núme- 
ro de empleados en cada división clasificados por sexo: 


Mujer (M) Hombre (H) Totales 


Administración (A) 20 30 50 
Operación de planta (0) 60 140 200 
Ventas (V) 100 50 150 


Totales 180 220 400 


2.2. 


2.3. 


2.4. 


2.5. 


2.6. 


2.7. 


2.8. 


2.9. 


2.10. 
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a) Usar un diagrama de Venn para ilustrar los eventos O y M para todos los empleados 
de la compañía. ¿Son mutuamente excluyentes? 
b) Si se elige aleatoriamente un empleado: Pi eda pete ny 
i. ¿Cuál es la probabilidad de que sea mujer?  -: : 
2. ¿Cuál es la probabilidd de que trabaje en ventas? . 
3. ¿Cuál es la probabilidad de que sea hombre y trabaje en la división de adminis- 
tración? 
4. ¿Cuál es la probabilidad de que trabaje pa la división de operación de plania, si es 
mujer? 
5. ¿Cuál es la probabilidad de que sea mujer si trabaja en la división de operación de 
planta? - 
c) ¿Son los eventos V y H estadísticamente independientes? 
d) ¿Son los eventos A y M estadísticamente independientes? 
e) Determinar las siguientes probabilidades: 


1. P(A U M) 3. P(O N F) 
2. P(A u M) 4. PIMIA) 


Con la definición 2.14 demuéstrese que para cualesquiera dos eventos, A y B, P(A|B) + 
P(A|B) = 1, con tal de que P(B) + 0. 


Sean A y B dos eventos cualquiera de S. Si A y B son mutuamente excluyentes, muéstre- 
se que no pueden ser independientes. Dedúzcase cuándo dos eventos independientes 
son, también, mutuamente excluyentes. 


Sean A y B dos eventos cualquiera de S. Empléese un diagrama de Venn para demos- 
trar que P(A N B)= F(A} — P(A N B). 


Una familia tiene tres hijos. Determinar todas las posibles permutaciones, con respecto 
al sexo de los hijos. Bajo suposiciones adecuadas, ¿cuál es la probabilidad de que, exac- 
tamente, dos de los hijos tengan el mismo sexo?, ¿cuál es la probabilidad de tener un va- 
rón y dos mujeres?, ¿cuál es la probabilidad de tener tres hijos del mismo sexo? 


Se extraen, sin reemplazo, dos cartas de una baraja. ¿Cuál es la probabilidad de que am- 
bas sean ases? 


Se lanza una moneda diez veces y en todos los lanzamientos el resultado es cara. ¿Cuál 
es la probabilidad de este evento?, ¿cuál es la probabilidad de que en el decimoprimero 
lanzamiento el resultado sea cruz? 


Una agencia automotriz recibe un embarque de 20 automóviles nuevos. Entre éstos, dos 
tienen defectos. La-agencia decide seleccionar, aleatoriamente, dos automóviles de entre 
los 20 y aceptar el embarque si ninguno de los dos vehiculos seleccionados tiene defec- 
tos. ¿Cuál es la probabilidad de aceptar el embarque? 


Se lanza una moneda con una probabilidad de 2/3 que el resultado sea cara. Si apare- 
ce una cara, se extrae una pelota, aleatoriamente, de una urna que contiene dos pelotas 
rojas y tres verdes. Si el resultado es cruz se extrae una pelota, de otra urna, que con- 
tiene dos rojas y dos verdes. ¿Cuál es la probabilidad de extraer una pelota roja? 


De entre 20 tanques de combustible fabricados para el transbordador espacial, tres se 
encuentran defectuosos. Si se seleccionan aleatoriamente cuatro tanques: 


a) ¿Cuál es la probabilidad de que ninguno de los tanques se encuentre defectuoso? 
b) ¿Cuál es la probabilidad de que uno de los tanques tenga defectos? 
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2.11. 


2.12. 


2.13. 


La probabilidad de que cierto componente eléctrico funcione es de 0.9. Un aparato con- 
tiene dos de éstos componentes. El aparato funcionará mientras lo haga, por lo menos, 
uno de los componentes. = 


a) Sin importar cuál de los dos componentes funcione o no, ¿cuáles son los posibles re- 
sultados y sus respectivas probabilidades? (Puede suponerse independiencia en la opera- 
ción entre los componentes.) 

b) ¿Cuál es la probabilidad de que el aparato funcione? 


Un sistema contiene tres componentes A, B y C. Éstos pueden conectarse en una, cual- 
quiera, de las cuatro configuraciones mostradas en la figura 2.3. Si los tres componentes 
operan de manera independiente y si la probabilidad de que uno, cualquiera de ellos, 
esté funcionando es de 0.95, determinar la probabilidad de que el sistema funcione para 
cada una de las cuatro configuraciones. 


Una forma de incrementar la probabilidad de operación de un sistema (conocida como 
la confiabilidad del sistema), es mediante la introducción de una copia de los compo- 
nentes en una configuración paralela, como se ilustra en la segunda parte de la figu-a 
2.3. Supóngase que la Nasa desea una probabilidad no menor de 0.999 99, de que el 
transbordador espacial entre en órbita alrededor de la tierra, con éxito. ¿Cuántos moto- 
res cohete deben configurarse en paralelo para alcanzar esta confiabilidad de operación 
si se sabe que la probabilidad de que uno, cualquiera, de los motores funcione ade- 
cuadamente es de 0.95? Supóngase que los motores funcionan de manera independiente 
entre sí. 


FIGURA 2,3 Cuatro configuraciones para tres componentes 


2.14. 
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Supóngase que la probabilidad de que los Potros de Baltimore ganen el campeonato de 
la Conferencia Americana es de 0.25, y la probabilidad de que lo obtengan los Cargado- 


` res de San Diego es de 0.20. Además, la probabilidad de que el campeón de la Conferen- 


2.16. 


2.17. 


2.18. 


cia Americana gane el Super Tazón es 0.45, 0.55 o 0.35, dependiendo ce si los Panos, 
los A o algún otro equipo gana el campeonato. , 


`a) ¿Cuál esla probabilidad de que un equipo de la Conferencia Americana gane el Su- 


per Tazón? 
b) Si un equipo de la Conferencia Aerian gana el Super Tazón, ¿cuál es la probabi- 
lidad de que los Potros de Baltimore ganen el título de su Conferencia? 


. El 5% de las unidades producidas en una fábrica se encuentran defectuosas cuando el 


proceso de fabricación se encuentra bajo control. Si el proceso se encuentra fuera de 
control, se produce un 30% de unidades defectuosas. La probabilidad marginal de que el 
proceso se encuentre bajo-control es de 0.92. Si se escoge aleatoriamente una unidad y se 
encuentra que es defectuosa, ¿cuál es la probabilidad de que el proceso se encuentre 
bajo control? 


Una planta armadora recibe microcircuitos provenientes de tres distintos fabricantes B, 
B: y B,.El 50% del total se compra a B, mientras que a B, y B, se les compra un 25% a 
cada uno. El porcentaje de circuitos defectuosos paraB,, B, y B; es 5, 10 y 12% respec- 
tivamente. Si los circuitos se almacenan en la planta sin importar quién fue el proveedor: 


a) Determinar la probabilidad de que una unidad armada en la planta contenga un cir- 
cuito defectuoso. 

b) Si un circuito no está defectuoso, ¿cuál es la probabilidad de que haya sido vendido 
por el proveedor B,? 


Un inversionista está pensando en comprar un número muy grande de acciones de una 
compañía. La cotización de las acciones en la bolsa, durante los seis meses anteriores, es 
de gran interés para el inversionista. Con base en esta información, se observa que la 
cotización se relaciona con el producto nacional bruto. Si el PNB aumenta, la probabili- 
dad de que el valor de las acciones aumente es de 0.8. Si el PNB es el mismo, la probabi- 
lidad de que las acciones aumenten su valor es de 0.2. Si el PNB disminuye, la probabilidad 
es de sólo 0.1. Si para los siguientes seis meses se asignan las probabilidades 0.4, 0.3 
y 0.3 a los eventos, el PNB aumenta, es el mismo y disminuye, respectivamente, deter- 
minar la probabilidad de que las acciones aumenten su valor en los próximos seis meses. 


Con base en varios estudios una compañía ha clasificado, de acuerdo con la posibilidad 
de descubrir petróleo, las formaciones geológicas en tres tipos. La compañía pretende 
perforar un pozo en un determinado sitio, al que se le asignan las probabilidades de 
0.35, 0.40 y 0.25 para los tres tipos de formaciones respectivamente. De acuerdo con la 
experiencia, se sabe que el petróleo se encuentra en un 40% de formaciones del tipo I, en 
un 20% de formaciones del tipo H y en un 30% de formaciones del tipo IHI. Si la 
compañía no descubre petróleo en ese lugar, determínese la probabilidad de que exista 
una formación del tipo II. 


CAPÍTULO TRES 


Variables aleatorias y 
distribuciones de probabilidad 


3.1 El concepto de variable aleatoria 


En el capítulo dos se examinaron los conceptos básicos de probabilidad con respecto 
a eventos que se encuentran en un espacio muestral. Los experimentos se conciben 
de manera que los resultados del espacio muestral son cualitativos o cuantitativos. 
Como ejemplos de resultados cualitativos se tienen: a) el lanzamiento de una mone- 
da es “cara” o ““cruz””; b) un producto manufacturado en una fábrica puede ser 
““defectuoso”” o “no defectuoso””, o c) una persona en particular puede preferir la 
loción X sobre la loción Y. Puede ser útil la cuantificación de los resultados cualita- 
tivos de un espacio muestral y, mediante el empleo de medidas numéricas, estudiar 
su comportamiento aleatorio. El concepto de variable aleatoria proporciona un me- 
dio para relacionar cualquier resultado con una medida cuantitativa. 


Definición 3.1 Sea S un espacio muestral sobre el que se encuentra definida una 
función de probabilidad. Sea X una función de valor real definida sobre S, de mane- 
ra que transforme los resultados de S en puntos sobre la recta de los reales. Se dice 
entonces que X es una variable aleatoria. 


Se dice que X es ““aleatoria”” porque involucra la probabilidad de los resultados 
del espacio muestral, y X es una función definida sobre el espacio muestral, de ma- 
nera que transforma todos los posibles resultados del espacio muestral en cantidades 
numéricas. 

Par ilustrar la noción de variable aleatoria, considérese el lanzamiento de una 
moneda. El espacio muestral está constituido por dos posibles resultados, “*cara”” y 
“cruz”. Sea X(cruz) = 0 y X(cara) = 1; de esta manera se han transformado los 
dos posibles resultados del espacio muestral en puntos sobre la recta de los reales. 
Por P(X = 0) se entenderá la probabilidad de que la variable aleatoria tome el 
valor cero O, de manera equivalente, la probabilidad de que caiga cruz cuando se 
lance la moneda. Como ejernplo adicional, considérese el lanzamiento de dos dados 
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indistinguibles y los 36 posibles resultados, como se muestra en la tabla 2.1. Se defi- 
ne como variable aleatoria X a la suma de los valores de las dos caras de los dados. 
La tabla 3.1 relaciona los 36 resultados con los valores correspondientes de la va- 
riable aleatoria X y sus probabilidades. La naturaleza probabilística de la variable 
aleatoria X, la suma de las dos caras, puede observarse el graficar cada valor de X 
contra su probabilidad como se muestra en la figura 3.1. 

-Para cada uno de los ejemplos anteriores, el número de posibles valores de la va- 
riable aleatoria es finito. Sin embargo, se pueden definir variables aleatorias cuyos 
valores.sean contables o no. Ya que una variable aleatoria es una caracterización 
cuantitativa de los resultados de un espacio muestral, ésta posee intrínsecamente la 
naturaleza discreta o continua de este espacio. 


Definición 3.2 Se dice que una variable aleatoria X es discreta si el número de valo- 
res que puede tomar es contable (ya sea finito o infinito), y si éstos pueden arreglarse 
en una secuencia que corrczpcde con los enteros positivos. 


Definición 3.3 Se dice que una variable aleatoria X es continua si sus valores con- 
sisten en uno o más intervalos de la recta de los reales. 


3.2 Distribuciones de probabilidad de variables aleatorias discretas 


En esta sección se considerará el concepto de distribución de probabilidad de una va- 
riable aleatoria. En la figura 3.1 se muestra la gráfica de los valores correspondientes 
a la variable aleatoria que respresenta la suma de las caras de los dos dados, cuando 
éstos se tiran. En general, una variable aleatoria discreta X representa los resultados 
de un espacio muestral en forma tal que por P(X = x) se entenderá la probabilidad 
de que X tome el valor de x. De esta forma, al considerar los valores de una variable 
aleatoria es posible desarrollar una función matemática que asigne una probabilidad 
a cada realización x de la variable aleatoria X. Esta función recibe el nombre de fun- 


TABLA 3.1 Correspondencia entre los resultados del lanzamiento de un par de dados y la 
variable aleatoria que representa la suma de las caras 


Valor de la Número de 
Resultado variable aleatoria ocurrencias Probabilidad 
(1,1) 2 l 1/36 
(1,2), (2,1) 3 2 2/36 
(1,3), (2,2), (3,1) 4 3 3/36 
(1,4), (2,3), (3,2), (4,1) 5 4 4/36 
(1,5), (2,4), (3,3), (4,2), (5,1) 6 5 5/36 
(1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 7 6 6/36 
(2.6), (3,5), (4,4), (5,3), (6,2) 8 5 5/36 
(3,6), (4,5), (5,4), (6,3) 9 4 4/36 
(4,6), (5,5), (6,4) 10 3 3/36 
(5,6), (6,5) 11 2 2/36 
(6,6) 12 l 1/36 
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FIGURA 3.1 Probabilidad para las sumas de las caras de dos dados 


ción de probabilidad* de la variable aleatoria X. El término más general, distri- 
bución de probabilidad, se refiere a la colección de valores de la variable aleatoria y 
a la distribución de probabilidades entre éstos. Sin embargo, hacer referencia a la 
distribución de probabilidad de X no sólo implica la existencia de la función de pro- 
babilidad, sino también la existencia de la función de distribución acumulativa 
de X. 


Definición 3.4 Sea X una variable aleatoria discreta. Se llamará a p(x) = P(X = x) 
función de probabilidad de la variable aleatoria X, si satisface las siguientes pro- 
piedades: 


l. p(x) > 0 para todos los valores x de X; 
2. £, px) = 1. 


Definición 3.5 La función de distribución acumulativa de la variable aleatoria X 
es la probabilidad de que X sea menor o igual a un valor específico de x y está dada 
por: 

Fœ) = P(X < x) = Y, phi). 


x¡<x 


* El nombre completo de esta función es el de función másica de probabilidad de una variable aleatoria 
discreta. 


A A A AAN TI ST 0 PE a E a: 


mm -m 


3.2 Distribuciones de probabilidad de variables aleatorias discretas 55 


. Por lo tanto, en el caso discreto, una variable aleatoria X está caracterizada por 
la función de probabilidad puntual p(x), la cual determina la probabilidad puntual 
de que X = x, y por la función de distribución acumulativa F(x), la que representa la 
suma de las probabilidades puntuales hasta el valor x de X inclusive. Nótese que las 
definiciones anteriores son consistentes con los axiomas de probabilidad, ya que esta 
función no es negativa para cualquier valor de la variable aleatoria y la suma de las 
probabilidades para todos los valores de X es igual a uno. 


Ejemplo 3.1 Considérese de nuevo el lanzamiento de dos dados. Si X es la variable 
aleatoria que representa la suma de las caras, la función de probabilidad de X' es 


ara a 
p(x) = 36 (3.1) 
0 para cualquier otro valor 


` Con (3.1), pueden determinarse las probabilidades para varios valores de X con- 
tenidos en la tabla 3.1 y cuya gráfica se muestra en la figura 3.1. Además, puede eva- 
luarse la función de distribución acumulativa de X de la siguiente forma: 


F()=PMX=< 1) = 0 
FQ)=P(=< 2 = 1/36 
F(B)=P(X=< 3) = 3/36 
F (4=P(X=< 4) = 6/36 
F (5)= PX < 5) = 10/36 
F (6) = P(X < 6) = 15/36 
F (1) = P(X < 7) = 21/36 
F (8) = P(X < 8) = 26/36 
F (9) = P(X < 9) = 30/36 
F(10) = P(X < 10) = 33/36 
F(11) = P(X = 11) = 35/36 
F(12) = P(X < 12) = l. 


Nótese que: 


P(X > 7) = 1- P(X < 7) = 1 - F(7) = 15/36; 
P(X = 7) = P(X < 7) — P(X < 6) = F(7) — F(6) = 6/36; 
P(5 < X < 9) = PIX < 9) — P(X < 4) = F(9) — F(4) = 24/36. 
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En general, la función de distribución acumulativa Fx) de una variable aleatoria 
discreta es una función no decreciente de los valores de X, de tal manera que 
1. 0<F)<1 para cualquier x. 
2. F(x;) > F(x) si x; = xy; 
3. P(X > x) =1- Fœ). 
Además, puede establecerse que para variables aleatorias de valor entero se tiene que: 
4. P(X = x) = F(x) — F(x — 1); 
5. P(x; <X sx) = Fx) - Fx — 1). 


La gráfica de la distribución acumulativa del ejemplo 3.1 se muestra en la figura 
3.2. En esta figura es evidente que la función de distribución acumulativa de una va- 
riable aleatoria discreta es una función escalón, que toma un valor superior en cada 
salto. 3 ae AA a - ; ~ 


J 
> e 


36/36 


30/36 
25/36 


20/36 


F(x) 


15/36 


10/36 


5/36 


2 3 4 5 6 7 8 9 l0 11 12 x 


FIGURA 3.2 '‘Representanción gráfica de la función de distribución acumulativa de la suma 
de las caras de dos dados, cuando éstos se lanzan 
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3, 3 Distribuciones de probabilidad de variables aleatorias continuas 


Enla sección. anterior se trataron distribuciones de probabilidad para variables alea- 
torias discretas. En ésta se examinarán conceptos similares para variables aleatorias 
continuas. En el caso discreto, se asignan probabilidades positivas a todos los valo- 
res puntuales de la variable aleatoria, pero la suma de todas ellas es uno aún a pesar 
de que el conjunto de valores sea infinito contable. Para el caso continuo, lo anterior 
no es posible. 

Por esta razón, la probabilidad des que una variable aleatoria continua X tome un 
valor específico x es cero. 

Se ilustrará el sentido de este resultado mediante el siguiente ejemplo: supóngase 
que se observa el intervalo entre dos llegadas consecutivas a un servicio. Si el disposi- 
tivo de medición puede medir el tiempo hasta una décima de segundo, entonces un 
intervalo de 83.4 seg puede realmente tomarse como la media y el verdadero valor 
puede encontrarse entre 83.35 y 83.45 seg. Por lo tanto, en el caso continuo es más 
lógico visualizar las probabilidades de intervalos que de puntos en particular. 
La distribución de probabilidad de una variable aleatoria continua X está carac- 
terizada por una función f(x) que recibe el nombre de función de densidad de probu- 
bilidad. Esta función f(x) no es la misma función de probabilidad que para el caso 
discreto. Como existe la probabilidad de que X tome el valor específico x es cero, la 
función de densidad de probabilidad no representa la probabilidad de que X = x. 
Más bien, ésta proporciona un medio para determinar la probabilidad de un interva- 
lo a < X=<b. 

Para ilustrar lo que se entiende como función de densidad de probabilidad, su- 
póngase que se miden los tiempos, entre dos llegadas consecutivas, de 100 clientes a 
una tienda y se agrupan en diez intervalos de un minuto cada uno, como se muestra 
en la tabla 3.2. En este punto se grafican las frecuencias relativas para cada intervalo 
por medio de rectángulos, como se muestra en la figura 3.3, para indicar que la fre- 
cuencia se refiere al intervalo completo más que a un punto en particular del mismo. 
Nótese que, puesto que la base tiene una longitud igual a uno, el área de cada rectán- 
gulo es la frecuencia relativa del correspondiente intervalo y, por lo tanto, la suma 
de las áreas de todos los rectángulos es igual a uno. 


TABLA 3.2 Tiempos entre dos llegadas consecutivas, agrupados, de 100 clientes a un servicio 


Intervalo Número de llegadys Frecuencia relativa 
0O<x< 1 22 0.22 
lI<xr= 2 18 0.18 
2<x3< 3 17 0.17 
3<x=< 4 13 0.13 
4<x=< 5 14 0.14 
5$<x= 6 8 0.08 
6<x< 7 6 0.06 
T<x< 8 7 0.07 
8<x='9 3 0.03 
9<x=<10 2 0.02 
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Supóngase que en lugar de observar los tiempos entre dos llegadas consecutivas 
de 100 clientes, se observan los tiempos para 1 000 clientes y. se agrupan en 20 inter- 
valos de medio minuto cada uno; o bien pueden observarse los tiempos para 10 000 
clientes agrupándolos en 40 intervalos de 15 segundos cada uno. Cada vez que esto 
se hace, se produce ün histograma que es cada vez menos irregular, pero en el que la 
frecuencia sigue siendo prácticamente la misma. Al continuar este proceso de 
aumento del número de observaciones mientras se disminuye la amplitud de los in- 
tervalos de clase, se llegará a una curva límite. Esto es, cuando el número observado 
de tiempos, entre dos llegadas consecutivas, sea muy grande y la amplitud de los in- 
tervalos de clase sea muy pequeña, la frecuencia relativa aparecerá, en esencia, como 
una curva lisa. Con base en la figura 3.3, puede especularse que la curva límite para 
este ejemplo es la que se muestra en la figura 3.4. 

La función fx), cuya gráfica es la curva límite que se obtiene para un número 
muy grande de observaciones y para una amplitud de intervalo muy pequeña, es la 
función de densidad de probabilidad para una variable aleatoria continua X, ya que 
la escala vertical se elige de manera que el área total bajo la curva es igual a uno. La 
función de densidad de probabilidad de una variable aleatoria continua X se define 
formalmente de la siguiente manera: 


Definición 3.6 Si existe una función f(x) tal que 


1. fœ) = 0, -o<x<o, 
2. Pros =1, y 


b 
3. Plas<X<b) = f f(x)dx 


0.10 


Frecuencia relativa 


0.05 


1 2 3 4 5 6 7 8 9 10 x 


FIGURA 3.3 Frecuencias relativas para los tiempos entre dos llegadas consecutivas, agrupa- 
dos en diez intervalos 
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Frecuencia relativa ŢȚ 


FIGURA 3.4 Curva límite para la frecuencia relativa de los tiempos de llegadas 


para cualesquiera a y b, entonces fx) es la función de densidad de probabilidad de la 
variable aleatoria continua xX. 


Puesto que el área total bajo fo) es uno, la probabilidad del intervalo a = X = 
.b esel årea acotada por la función de densidad y las rectas X = a y X = b, como se 
muestra en la figura 3.5. 


FIGURA 3.5 Probabilidad ilustrada como el área bajo la curva de densidad 
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Al igual que en el caso de una variable aleatoria discreta, la función de distribu- l 
ción acumulativa de una variable aleatoria continua X es la probabilidad de que X 
tome un valor menor o igual a algún x específico. Esto es, 


P(X = x) = Fx) = Í Koa, (3.2) 


en donde ż es una variable artificial de integración. Por lo tanto, la función de distri- 
bución acumulativa F(x) es el área acotada por la función de densidad que se en- 
cuentra a la izquierda de la recta X = x, como se ilustra en la figura 3.6. 

Dado que para cualquier variable aleatoria continua X, 


P(X = x)= f f(Ðdt = 0, 


entonces: 
© P(X < x) = P(X < x) = F(x). 


La distribución acumulativa F{x), es una función lisa no decreciente de los valo- 
res de la variable aleatoria con las siguientes propiedades: 


1. Fi=0) = 0; 


2. F(æ) = 1; 
3. P(a < X <b) = F(b) — F(a); 
4. dF(x)/dx = f(x). 


FIGURA 3.6 La distribución acumulativa, ilustrada como un área bajo la curva de densidad 
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La propiedad de que la derivada de la función de distribución acumulativa es la fun- 
ción de densidad de probabilidad, es una consecuencia del teorema fundamental del 
cálculo integral. 


Ejemplo 3.2 La variable aleatoria X representa el intervalo de tiempo entre dos Ie- 
gadas consecutivas a una tienda y su función de densidad de probabilidad está dada 
por: > 


s exp(— x/2),* x>0, 


para cualquier otro valor 


fa) = 


para una constante k apropiada. Determinar el valor de k, la función de distribución 
acumulativa, la probabilidad de que 2 < X < 6, y la probabilidad de que X < 8. 
Debe insistirse en que: 


Proa = 1; 


por lo tanto, dado que en este ejemplo f(x) = O si x < 0, entonces el valor de k está 
determinado por: 


k [ exp( — x/2)dx 


Después de la integración se tiene que: 


— 2k exp(— x/2) 1, 


0 


y k = 1/2. La función de distribución acumulativa es: 


Fo) = | fodi 


0 f 
= f oa + 2), exp(— 1/2)dt 


l — exp(—x/2) parax> 0, 
y Fx) = Opara x < 0. Además DF(x)/dx = 1/2 exp(—x/2), que es lo que se es- 


peraba. 
La probabilidad de que un intervalo entre dos llegadas consecutivas se encuentre 


entre dos y seis minutos es: 


6 
PQ<X<6) = I exp(— x/2)dx = F(6) — F(2) 


= [1 — exp(-3)] — [1 — exp(— 1)] = 0.3181. 


* No se dudará en emplear ‘‘exp” en lugar de “ʻe”, toda vez que esta notación sea menos oscura. 
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La probabilidad de que transcurran menos de ocho minutos entre dos llegadas con- 
secutivas es: os 


P(X < 8) = F(8) = 1 — exp(-4) = 0.9817. 


La probabilidad de que ésta exceda los ocho minutos es1 — F(8) = exp(—4) = 0.0183. 


Ejemplo 3.3 La variable aleatoria que representa la proporción de accidentes 
automovilísticos fatales en Estados Unidos, tiene la siguiente función de densidad: 
42x(1 — xY 0O<x<l 
fx) = 
para cualquier otro valor 


¿Cuál es la probabilidad de que no más del 25% de los accidentes automovilísticos 
sean fatales? En otras palabras, ¿cuál es P[X < 0.25]? 


La función f(x) es una densidad de probabilidad dado que: 


1 2 3 4 5 6 7 
vam E A O_O o a 
al x(l — xYdx = 0/5 3 + 4 5 + 6 7 


0 


Nótese que cuando la variable aleatoria X es 1/4, la función de densidad es 
K1/4) = 2.4917. De esta forma, en el caso continuo es bastante factible tener, para 
un valor específico de la variable aleatoria X, un valor de la función de densidad 
mayor que uno aun a pesar de que la integral de la función de distribución sobre el 
intervalo completo de valores de la variable aleatoria sea uno. Finalmente, la fun- 
ción de distribución acumulativa es: 


F(x) = 42 | (1 — Hdt = 21x? — 70x? + 105x* — 84x% + 35x6 — 6x. 


Por lo tanto, la probabilidad de que la proporción de accidentes automovilísticos fa- 
tales sea menor del 25% es: 


F(1/4) = 21(1/4) — 70(1/4) + 105(1/4)' — 84(1/4Y + 35(1/4)* — 6(1/4) 
= 0.5551. 


3.4 Valor esperado de una variable aleatoria 


El valor esperado (o esperanza) de una variable aleatoria es un concepto muy impor- 
tante en el estudio de las distribuciones de probabilidad. La esperanza de una va- 
riable aleatoria tiene sus orígenes en los juegos de azar, debido a que los apostadores 
deseaban saber cuál era su esperanza de ganar repetidamente un juego. En este senti- 
do, el valor esperado representa la cantidad de dinero promedio que el jugador está 
dispuesto a ganar o perder después de un número muy grande de apuestas. Este signi- 
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ficado también es válido para una variable aleatoria. Es decir, el valor promedio de 
una variable aleatoria después de un número grande de experimentos, es su valor es- 
perado. 

Para ilustrar la esencia de la esperanza, se analizará el siguiente juego de azar. 
Supóngase que se tiene moneda normal y el jugador tiene tres oportunidades para 
que al lanzarla aparezca una ““cara”. El juego termina en el momento en el que cae 
una *“cara”” o después de tres intentos, lo que suceda primero. Si en el primero, segundo 
o tercer lanzamiento aparece “cara” el jugador recibe $2, $4, y $8 respectivamente. 
Si no cae ‘“‘cara” en ninguno de los tres lanzamientos, pierde $20. Para determinar la 
ganancia o pérdida promedio después de un número muy grande de juegos, sea X 
la variable aleatoria que representa la cantidad que se gana o se pierde cada vez que 
se juega. Los posibles valores de X junto con sus respectivas probabilidades se en- 
cuentran en la tabla 3.3. Después de un número grande de juegos se espera ganar 
$2 en cualesquiera de los dos lanzamientos, $4 en cualesquiera de los cuatro lanza- 
mientos, $8 una vez caua ocho lanzamientos y se espera perder $20 una vez en cada 
ocho intentos. El valor esperado, o la cantidad promedio que se ganaría en cada juego 
después de un número muy grande de éstos, se determina multiplicando cada canti- 
dad que se gana o se pierde por su respectiva probabilidad y sumando los resultados. 
De acuerdo con la anterior, la esperanza de ganar es: 


($2101/2) + ($41(1/4) + ($8)(1/8) + (-$2011/8) = $0.50 


por juego. Nótese que el valor esperado de 50 centavos no es ninguno de los posibles 
valores de la variable aleatoria; de esta forma, es completamente posible que una va- 
riable aleatoria nunca tome el valor de su esperanza. 

El ejemplo anterior sugiere la siguiente definición de la esperanza matemática de 
una variable aleatoria: 


Definición 3.7 El valor esperado de una variable aleatoria X es el promedio o valor 
medio de X y está dado por: 


E(X) = Y xp(x) si x es discreta, o 


X 


E(X) = L xf(x)dx si X, es continua. 


en donde p(x) y fx) son las funciones de probabilidad y de densidad de probabili- 
dad, respectivamente. 


TABLA 3.3 Probabilidades de ganar o perder en un juego de azar 


X P(X} 
2 PX = 2) = PH) = 1/2 
4 PX=4= PATAH) = 1/4 
8 PX = 8) = PTNTNA)= 1/8 
—20 P(X = -0=ATNTNT = 1/8 
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En general, el valor esperado de una función g(x) de la variable aleatoria X, está 
dado por: 


E[gG(0] = Y gwp) si x es discreta, o 
i (3.3) 


Elge(X )] = Í e exf (x)ddx si X, es continua. 


La esperanza de una variable aleatoria X no es una función de X sino un número 
fijo y una propiedad de la distribución de probabilidad de X. Por otra parte, el valor 
esperado puede no existir dependiendo de si la correspondiente suma o integral no 
converge en un valor finito. 


Ejemplo 3.4 Sila variable aleatoria X representa la suma de las caras de dos dados 
cuando éstos se lanzan, demostrar que el valor esperado de X es siete. 
Con la función de probabilidad de X dada por (3.1) y la definición 3.7, se tiene: 


12 : 
E(X) = Y, xp(x) = (2X1/36) + (3X2/36) + == + (121/36) = 7. 
x=2 
Ejemplo 3.5 Para el ejemplo 3.3, determinar el valor esperado de la proporción de 


accidentes fatales en Estados Unidos. 
Con la definición 3.7, el valor esperado de la proporción es: 


E(X) = 42 Í xf(x)dx 
i 
= af xX (l — xYdx 


1 Sx se Sé Y 
= 42y ( 3 4 + 2x 3 + 7 3 


0 


= 0.25. 


Ejemplo 3.6 Supóngase que el tiempo necesario para reparar una pieza de equipo, 
en un proceso de manufactura, es una variable aleatoria cuya función de densidad 
de probabilidad es: 


Ro aen x>0, 
Xx) = 


0 para cualquier otro valor. 


Si la pérdida de dinero es igual al cuadrado del número de horas necesarias para lle- 
var a cabo la reparación, se debe determinar el valor esperado de las pérdidas por re- 
paración. 


Mem n 


A O NR SO 
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En este caso es necesario calcular el valor esperado de una función que se en- 
cuentra relacionada con la variable aleatoria (el tiempo de reparación). Esta función 
es: 


g(x) = x’; 
por lo tanto: ~ 


~ pe 


Ele(%)] = Í __ 8f a)dx = f x'exp(—x/5)dx. 


Para evaluar integrales de este tipo en donde el integrando es un producto de una po- 
tencia por una exponencial negativa sobre la recta de los reales positivos, es mejor 
emplear la función matemática: 


T(n) = f u"™' exp(—u)du, n>0, (3.4) 


que se conoce como función gama del argumento n. Algunas propiedades de esta 
func’ón son: 


l.Tr+D=n! si n es un entero positivo; 
2. Tn + 1) = na(n), n>0; 
3. (1/2) = yr. 


De acuerdo con lo anterior, para evaluar la integral 
1 xX 
Elg(X)] = 54, xexp(—x/5)dx, 


en (3.4) es u = x/5; en otras palabras, x 5u dx = Sdu. Entonces: 


1f x*exp(—x/5)dx = 1f (SuYexp(— u)Sdu 


Ele] = 5 El 


= 25 l wexp(-— u)du 


= 251 (3) 
= 50, 


50 es el valor esperado de la pérdida por reparación. 


Ejemplo 3.7 Un inversionista dispone de $100 000.00 para una inversión de un 
año. El inversionista está considerando dos opciones: colocar el dinero en el merca- 
do de valores, lo que le garantiza una ganancia anual fija del 15% y un plan de inver- 
sión cuya ganancia anual puede considerarse como una variable aleatoria cuyos 
valores dependen de las condiciones económicas que prevalezcan. Con base en la, 
historia pasada del segundo plan, un analista muy confiable ha determinado los po- 
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sibles valores de la ganancia y calculado sus probabilidades, como se muestra en la. 
tabla 3.4. Con base en la ganancia esperada ¿cuál de los dos planes debe seleccionarse? 


Si se escoge el primer plan, colocar el dinero en el mercado de valores, la ganan- 
cia anual que producen $100 mil será de $15 mil, dado que ésta es fija y su valor es 
del 15%. Para el segundo plan, sea X la variable aleatoria que representa la ganan- 
cia. Con la definición 3.7, se tiene: 

E(X) = (0.31(0.2) + (0.25)(0.2) + --- + (0.051(0.05) = 0.205. 
De acuerdo con lo anterior, el segundo plan es una elección mucho mejor puesto que 
ofrece una ganancia esperada de $20 500. Sin embargo, el lector debe ser cauteloso 
en este punto, dado que el valor de $20 500 es únicamente un valor esperado y el in- 
versionista no tiene ninguna garantía dc que su ganancia real se encuentre cercana a 
este valor. 

A continuación se enunciarán y demostrarán algunas propiedades importantes 
de la esperanza de una variable aleatoria. Se usará el caso continuo, a pesar de que 


estas propiedaces también son válidas para variables aleatorias discretas. Sea X una 
variable aleatoria continua con una función de densidad de probabilidad Ax). 


1. El valor esperado de una constante c es el valor de la constante. 
E(c) = f cf(x)dx = f fix)dx = c. 


2. El valor esperado de la cantidad aX + b, en donde a y b son constantes, es el 
producto de a por el valor esperado de x más b. : 


ElaX + b) = les (ax + b)f()dx = a f oax +b sou 


= aE(X) + b. 


3. El valor esperado de la suma de dos funciones g(X) y h(X) de X es la suma de los 
valores esperados de g(X) y A(X). 


El) + AA) = ds lei) + A0] f00dx 


TABLA 3.4 Valores de la ganancia para el ejemplo 3.7 


Ganancia (%) Probabilidad 
30 0.20 
25 0.20 
20 0.30 
15 0.15 
10 0.10 
5 0.05 


OKA K<áKá<>+ 5 5 
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z L gof dx + Í __ hf a)dx 


= Elg(X)] + Elh(X)]. 


N 
X 


3.5 Momentos de una variable aleatoria 


Los momentos de una variable aleatoria X* son los valores esperados de ciertas fun- 
ciones de X. Éstos forman una colección de medidas descriptivas que pueden em- 
plearse para caracterizar la distribución de probabilidad de X y especificarla si todos 
los momentos de X son conocidos. A pesar de que los momentos de X pueden defi- 
nirse alrededor de cualquier punto de referencia, generalmente se definen alrededor 
del cero o del valor esperado de X. El uso de los momentos de una variable aleatoria 
para caracterizar a la distribución de probabilidad es una tarea muy útil. Lo anterior 
es especialmente cierto en un medio en el que es poco probable que el experimenta- 
dor conozca la distribución de probabilidad. Todas las proposiciones con respecto a 
los momentos se encuentran sujetas a la existencia de las sumas o integrales que las 
definan. 


Definición 3.8 Sea X una variable aleatoria. El r-ésimo momento de X alrededor 
del cero se define por: 


ui = E(X’) = Y x'p(x) si X es discreta, O 
p, = EX”) = JE x'f(x)dx si X es continua. 


El primer momento alrededor del cero es la media o valor esperado de la variable 
aleatoria y se denota por u; de esta manera se tiene que u; = u = E(X). Con 
base en el material del capítulo uno, la media de una variable aleatoria se considera 
como una cantidad numérica alrededor de la cual los valores de la variable aleatoria 
tienden a agruparse. Por lo tanto, la media es una medida de tendencia central. 


Definición 3.9 Sea X una variable aleatoria. El r-ésimo momento central de X o el 
r-ésimo momento alrededor de la media de X se define por: 


u, = EX — uY = Y (x — uy po) si X es discreta, O 


E 


H, = E(X - py = Í __ œ — wyfix)dx si X es continua. 


* Tambień es apropiado emplear la frase momentos de la distribución de probabilidad de X. 
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El momento central cero de cualquier variable aleatoria es uno, dado que: 


po = EX - py = E0) = 1. 


De manera similar, el primer momento central de cualquier variable aleatoria es 
cero, dado que: 


m = EX — y) =EX)-u=0. 


El segundo momento central: 
Uy = E(X — py, 


recibe el nombre de varianza de la variable aleatoria. Puesto que: 


m = Var(X) = EX — py 
= EX? — 2Xp + p’) 
= E(X?) - 2p + p’ 
= =p, (3.5) 


la varianza de cualquier variable aleatoria es el segundo momento alrededor del - 
origen menos el cuadrado de la media. Generalmente se denota por g°. La varianza 
de una variable aleatoria es una medida de la dispersión de la distribución de proba- 
bilidad de ésta. Por ejemplo, en el caso continuo si la mayor parte del área por deba- 
jo de la curva de distribución se encuentra cercana a la media, la varianza es pe- 
queña; si la mayor parte del área se encuentra muy dispersa alrededor de la media, la 
varianza será grande. La raíz cuadrada positiva de la varianza recibe el nombre de 
desviación estándar y se denota por o. A pesar de que o” y o son los simbolos más 
universales para la varianza y la desviación estándar, respectivamente; en este libro 
no se dudará en emplear las notaciones v(X) o Var(X) para la varianza y o(X) o 
d.e. (X) para la desviación estándar dada su identificación explícita con la variable 
aleatoria involucrada. Por la misma razón, a veces será necesario emplear la nota- 
ción u, (X) para denotar el r-ésimo momento central de X. 

Es útil notar que la varianza de una variable aleatoria X es invariable; es decir, 
Var(X + b) = Var(X) para cualquier constante b. De manera más general, se de- 
mostrará que Var(aX + b) = a*Var(X) para cualesquiera dos contantes a y b. Por 
definición, 

Var(aX + b) = ElaX + bř — ElaX + b) 
= Ela X? + 2abX + b’) — [aE(X) + b}? 
= PE(X?) + 2abE(X) + b? — E(X) — 20bE(X) — b 
= E(X?) — E(X) 
= MEX?) — EXX)) 
= @ Var (X). 


3.5 Momentos de una variable aleatoria 69 


Una medida que compara la dispersión relativa de dos distribuciones de probabi- 
lidad es el coeficiente de variación, que está definido por: 


V = o/u. . (3.6) 


El coeficiente de variación expresa la magnitud de la dispersión de una variable alea- 
toria con respecto a su valor esperado. V es una medida estandarizada de la va- 
riación con respecto a la media, especialmente útil para comparar dos distribuciones 
de probabilidad cuando la escala de medición difiere de manera apreciable entre és- 
tas. Por ejemplo, dadas las variables aleatorias X y Y, supóngase que: 


E(X) = 120, Var(X) = 36; E(Y) = 40, Var(Y) = 


A pesar de que la dispersión de X, por su desviación estándar, es más grande que la de 
Y, en un sentido absoluto, la dispersión relativa de X es menor que la dispersión re- 
lativa de Y, puesto que: 


V, = 6/120 = 0.05, 
pero: 
V, = 4/40 = 0.10. 


Por lo tanto, la distribución de probabilidad de Y muestra una mayor dispersión 
relativa con respecto a la media que la distribución correspondiente a X. 

En este punto, se examinarán los momentos centrales tercero y cuarto de una va- 
riable aleatoria X. Estos momentos centrales proporcionan información muy útil 
con respecto a la forma de la distribución de probabilidad de X. A pesar de que 
pueden considerarse momentos de orden superior, su utilidad para caracterizar una 
distribución de probabilidad es mucho menor que la de los primeros cuatro momen- 
tos. El tercer momento central 


= E(X - py, (3.7) 
está relacionado con la asimetría de la distribución de probabilidad de X. Ya se de- 
mostró que el segundo momento central (la varianza) puede expresarse en términos 
de los primeros dos momentos alrededor del cero. De hecho, cualquier momento 


central de una variable aleatoria X puede expresarse en términos de los momentos de 
ésta, alrededor del cero. Por definición: 


H, = EX — p), 


pero la expansión de (X — uy puede expresarse como; 


(X — W= E : E 


(r — Ta 


Ya que la esperanza de una suma es igual a la suma de las esperanzas, se tiene que: 
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Ml AS » 
i=0 r- i)! 
qe da pipt 
En particular, | 
Us = m; — 3u + 240. (3.8) 


Para las distribuciones de probabilidad que presentan un solo pico, si m, < 0, se 
dice que la distribución es asimétrica negativamente; si 3 > 0, la distribución es 
asimétrica positivamente; y si p, = 0, la distribución recibe el nombre de simétrica. 
Sin embargo, a menos que la distribución presente un solo pico, el conocimiento de 
u, no es suficiente para tener una idea de la forma de la distribución. Aun así, el 
tercer momento central puede dar resultados erróneos, dado que depende de las uni- 
dades en las que se mide la variable aleatoria X. Para estos casos, una medida más 
apropiada de la asimetría, es el tercer momento estandarizado, dado por; 


3 = y/u)”, (3.9) 


que recibe el nombre de coeficiente de asimetría. El coeficiente œ, es la medida de la 
asimetría de una distribución de probabilidad con respecto a su dispersión. Una dis- 


* En ocasiones, será necesario identificar a la variable aleatoria explícitamente, con el propósito de evitar 
ambigijedades. 


a) 


b) c) 


FIGURA 3.7 Funciones de densidad de probabilidad típicas de distribuciones: a) asimétrica 
positivamente, b) asimétrica negativamente y c) simétrica. 


l 
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tribución de probabilidad es asimétrica positiva, negativa o simétrica si az > 0, a 
<0, 0%.= 0 respectivamente, como se muestra en la figura 3.7. Nótese que si la 
distribución de probabilidad de una variable aleatoria X es simétrica, todos los mo- 
mentos centrales de X de orden impar serán cero, dado que cada valor positivo de 
(X — py se cancela por un valor negativo de la misma magnitud y de igual proba- 
bilidad. y 

-El cuarto momento central, 


E(X - py 
H4 — 4u us +64 3p, (3.10) 


Ha 


es una medida de qué tan puntiaguda es la distribución de probabilidad y recibe el 
nombre de curtosis. Al igual que para el tercer momento, es preferible emplear 
el cuarto momento estandarizado, 


Q4 = ual Mz, 8.11) 


como una medida relativa de la curtosis. Si a, > 3, la distribución de probabilidad 
presenta un pico relativamente alto y recibe el nombre de leptocúrtica; si a, < 3, la 
distribución es relativamente plana y recibe el nombre de platicúrtica; y si a, = 3, 
la distribución no presenta un pico muy alto ni muy bajo y recibe el nombre de me- 
socúrtica. Los tres tipos de distribuciones se encuentran ilustrados en la figura 3.8. 


a) 


AAA AA e 


b) c) 


FIGURA 3.8 Funciones de densidad de probabilidad típicas de distribuciones: a) leptocúrti- 
cas, b) platicúrticas y c) mesocúrticas 
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El valor de tres se emplea como una referencia debido a que en la práctica la curtosis 
estandarizada de una distribución de probabilidad se compara con la de una distri- 
bución ampliamente utilizada, conocida como distribución normal, cuyo valor es 
tres. La distribución normal se estudia con gran detalle prosteriormente. 

Los momentos estandarizados tercero y cuarto, también se conocen como los 
factores de forma primero y segundo, respectivamente, de la distribución de proba- 
bilidad debido a que, en gran medida, determinan la forma de la distribución de pro- 
babilidad. 


Ejemplo 3.8 Dos vendedores de seguros de vida, A y B, visitan de ocho a 12 clien- 
tes potenciales por semana, respectivamente. Sean X y Y dos variables aleatorias 
que representan el número de sendos seguros vendidos por A y B, como resultado de 
las visitas. Con base en una gran cantidad de información pasada, las probabilida- 
des para los valores de X y Y son las siguientes: 


x] 0 l 21314] 51}16};7 8 
p(x) {0.02 | 0.09 | 0.21 [0.28 | 0.23 0.12 | 0.04 | 0.01 | 0 


y 0 l 2|3|4|5|6|7 |8¡9/10/11/12 
: p(y) |0.06|0.21/0.28/0.24/0.13/0.05/0.02[0.01/0/0/0|0]|0 


Comparar y contrastar las distribuciones de probabilidad de X y Y empleando sus 
medias, varianzas y factores de forma. 


Con base en la definición 3.8, los primeros cuatro momentos de X alrededor del 
cero son: 


3.18 
12.06 


u = (0) (0.2) + (1) (0.09) + --- + (8X0) 
a = (030.02) + (190.09) + --- + (8)%0) 
3 = (030.02) + (1)*(0.09) + =- + (8)(0) = 51.12 
a = (030.02) + (1)(0.09) + =- + (8)0) = 235.86. 


il 


Al emplear las expresiones 3.5, 3.8 y 3.10, respectivamente, se determina que Var(X) 
= 1.95, (X) = 0.3825 y ua(A) = 10.565. Los primeros dos factores de forma de 
la distribución de probabilidad de X se obtienen empleando (3.9) y (3.11), respecti- 
vamente, y son œ(X) = 0.1405 y a,(X) = 2.78. 

Con el mismo procedimiento, los primeros cuatro momentos de Y alrededor 
del cero son u = 2.45, p} = 8.03, u; = 31.25y u, = 138.59. De esta mane- 
ra Var(Y) = 2.03, uY) = 1.6418, ps Y) = 13.4504, œ (Y) = 0.5676, y 
ad Y) = 3.26. 

A primera vista, parece existir muy poca diferencia entre las distribuciones de X 
y Y con respecto a la media y la varianza, pero la distribución de Y tiene un sesgo positi- 


A A A ANS IA O A IR O 
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vo más grande que la de X. Además, la distribución de X es platicúrtica (a, < 3), 
mientras que la de Y es leptocúrtica (a, > 3). 

En este momento se considerará el concepto de variable aleatoria estandarizada. Sea 
X cualquier variable aleatoria con media x y desviación estándar ø. La cantidad 


Y = (X — p)/o (3.12) 


define una variable aleatoria Y con media cero y desviación estándar uno. Esta va- 
riable aleatoria recibe el nombre de variable estandarizada correspondiente a X. De 
hecho, para cualquier valor particular x de X el valor y = (x — ¡1)/o indica la des- 
viación del valor x del valor esperado de X en términos de las unidades de la 
desviación estándar. Por ejemplo, si X representa la calificación de una prueba de 
inteligencia, y si E(X) = 100 y Var(X) = 100, entonces Y = (X - 100)/10 es la va- 
riable estandarizada correspondiente a X. Además, si una persona posee un coefi- 
ciente intelectual de 120, entonces se encontrará a dos desviaciones estándar del coe- 
ficiente intelectual medio. 
El valor esperado de Y es cero, puesto que: 


De hecho, puesto que E(Y) = 0, el r-ésimo momento central de Y es: 
X Ye $ 
e) 
o 


1 
— E(X — uy 
e 


PAY) = EY) 


u, (0/07; 


de esta manera se tiene que: 
uY) = p AX)/{uX)¥®. (3.13) 


De (3.13) es evidente que Var(Y) = uxXY) = 1. En particular, nótese que 
ax(Y) = ax(X) y as Y) = a (X). La estandarización de una variable aleatoria 
afecta a la media y a la varianza, pero no a los factores de forma. 


Ejemplo 3.9 Considérense las variables aleatorias X y Y, cuyas funciones de densi- 
dad de probabilidad son 


1/30 80 < x < 110, 
fx) = i 


0 para cualquier otro valor 


1 
y AE To 000 Pi y/10 000) y>0, 


0 para cualquier otro valor; 
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Determinar y comparar la media, la varianza y los momentos estandarizados tercero 
y cuarto, de X y Y. 


El principal objetivo de este problema es contrastar las distribuciones de proba- 
bilidad de X y de Y, mediante la comparación de sus cuatro primeros momentos y, 
en alguna medida, proporcionar un análogo teórico de los ejemplos 1.1 y 1.2. El 
lector puede verificar, de manera fácil, que las distribuciones de probabilidad de X y 
Y son muy diferentes, graficando las correspondientes funciones de densidad. Como 
se verá, gran parte de la diferencia puede descubrirse a través de las comparaciones 
entre los cuatro primeros momentos de X y Y. 

Para facilitar los cálculos, sea c, = 1/30 y c, =1/10 000. Para la variable aleato- 
ria X: 


110 e 110 
E(X) = al xde =] =95 
80 2 de 
y 
110 15 
Var(X} = cı Í (x — 9SYdx = c; L. wdu = 75, 


en donde u = x —95 y dx = du. Por lo tanto, se tiene que d.e.(X) = 8.66. 
Para los momentos de orden superior: 


10 15 
EX - 95 = cı f (x — 95Ydx = aj wdu = 0 
y 
110 i5 
E(X - 95 = c; k (x — 95)fdx = af £ udu = 10 125. 


De acuerdo con (3.9) y (3.11), los factores de forma, primero y segundo, de X son 
a(X) = 0/(15)? = 0 y aX) = 10,125/5,625 = 1.8, respectivamente. La dis- 
tribución de probabilidad de X es simétrica y está centrada alrededor del valor 95, 
tiene una varianza de 75 y una desviación estándar de 8.66, y tiende a ser plana en su 
parte superior. 

Para la variable aleatoria Y; 


x 


1] 1 
EV) = c | y expl- c.y My = al u exp(— 1) du = I(2)/c, = 10 000 
2 2 


y 


x 


E(Y?) = af y expl- cy)dy = TB)/c} = 2 x 108, 
en donde u = c,y y dy = du/c,„ De esta manera se tiene que Var(Y) = 1 x 10%, y 
d.e.(X) = 10 000. Además: 


x 


E(Y?) = c Í , y expl- cy)dy = T(4)/& = 6 x 10”. 


rii rnida a 


mame a 


mR o in 
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Con (3.8) y (3.9) se determina que E(Y — 10000) = 2 x 10°, y d.e.(Y) = 
10 000. De manera similar: 


x 


E(Y*) =c, Í y' expl- c:y)dy = T(5)/cÍ 


0 


24 x 10', 


Con (3.10) y (3.11), respectivamente, se obtiene que E(Y — 10 000)' = 9 x 10'%, 
y a (Y) = 9. Puede concluirse que la distribución de Y está sesgada positivamente, 
tiene un pico relativamente alto, una media de 10 000, una varianza de 1 x 10%, y 
una desviación estándar de 10 000. 


3.6 Otras medidas de tendencia central y dispersión 


A pesar de que la media y la varianza son las principales medidas de tendencia 
central y dispersión, existen otras medidas empleadas comúnmente. Se debe recor- 
dar que en el capítulo uno, la mediana y la moda eran otras medidas útiles de ten- 
dencia central. l 


Definición 3.10 Para cualquier variable aleatoria X, se define a la mediana xos de 
X, para ser: 


P(X < xos) © 1/2 y P(X < xos)>1/2 si Xesdiscreta, o 


P(X = xos) = 1/2 si X es continua. 


Si existe uno de estos valores para X, entonces Xo.s recibe el nombre de mediana de 
la distribución de X. La mediana es una medida de tendencia central, en el sentido 
de que es el valor para el cual la distribución de probabilidad se divide en dos partes 
iguales. 


Definición 3.11 Para cualquier variable aleatoria X, se define la moda como el 
valor Xm de X que maximiza la función de probabilidad, si X es discreta, o la fun- 
ción de densidad si X es continua. 


Si existe uno de estos valores para X, entonces x,, recibe el nombre de moda de 
la distribución de X. Si X es continua la moda es la solución de df(x)/dx = 0 si 
d’'f(x)/dx? < 0. Si la segunda derivada es positiva, el valor recibe el nombre de anti- 
moda; éste se encuentra en las distribuciones que tienen forma de U. Si existen 
varios máximos o mínimos, las distribuciones de probabilidad reciben el nombre de 
multimodales. 

De acuerdo con la exposición empírica del capítulo uno, la media de una variable 
aleatoria es generalmente la medida preferida de tendencia central. Sin embargo, en 
algunas situaciones la mediana, y en menor grado la moda, pueden ser medidas de 
tendencia central mucho más apropiadas. Por ejemplo, en distribuciones unimoda- 
les cuya asimetría es grande, el valor esperado de la variable aleatoria puede verse 
afectado por los valores extremos de la distribución, mientras que la mediana no lo 
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estará. Para distribuciones unimodales con asimetría negativa, la mediana es más 
grande que la media, mientras que lo opuesto es cierto para distribuciones unimoda- 
les con asimetría positiva. Para distribuciones unimodales simétricas, la media, me- 
diana y moda coinciden en valor, 


Ejemplo 3.10 Sea X una variable alaeatoria que representa el tiempo de duración, 


en horas, de un cierto componente eléctrico. Si la función de densidad de probabili- 
dad de X está dada por 


l 
—— exp(—x/1000) x>0, 
f(x) = 4 1000 
0 para cualquier otro valor, 
determinar y comparar la media y la mediana. 


La media de X es: 


A e _ [ y 
E(X) = 1000 Jo x exp(— x/1000)dx = 1000 , u exp( — u)du 


1000r (2) = 1000 horas. 
en donde x = 1 000u y dx = 1 000du. La mediana de X es: 


—— |" exp(-x/1000)dx = 0. 
1000 Jo exp( — x/ 1000) 5 


1 — exp(-—xo.s/ 1000) = 0.5. 


P(X <= xos) = Flxos) = 


Por lo tanto, 
Xos = — 1000 In(0.5) = 693.15 horas. 


Se puede demostrar que esta función de probabilidad es asimétrica positivamen- 
te, puesto que su coeficiente de asimetría es a, = 2. De esta forma, la duración 
media de 1 000 horas se encuentra afectada por los valores de la variable aleatoria en 
los extremos de la distribución. De hecho la probabilidad de que un componente tra- 
baje más que el valor promedio, es de 0.3679 puesto que 


P(X>u)= 1 — F(u) = 1 — 0.6321 = 0.3679, 


En este caso, el valor de la mediana para el tiempo de duración, 693.15 hr, resulta 
ser una medida más apropiada de tendencia central. 

Además de la varianza, existen otras medidas de dispersión para variables aleato- 
rias como el recorrido interdecil, el recorrido intercuartil y la desviación media, 
como se mencionó en el capítulo uno. Los primeros dos son funciones de los cuanti- 
les de la distribución de probabilidad. La desviación media es el paralelo conceptual 
de la desviación estándar, con excepción de que se emplea el valor absoluto de la di- 
ferencia entre el valor de la variable aleatoria y su valor esperado en lugar del 
cuadrado de ésta. 
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Definición 3,12 Para cualquier variable aleatoria X, el valor cuantil x, de orden % 
0<qg< l, es el valor de X tal que: 


PX<x)<=q y P(X < x,) >q si X es discreta, o 


P(X <x,) = q si X es continua. 


Generalmente los valores cuantiles de una variable aleatoria continua son relati- 
vamente fáciles de determinar. Sin embargo, para variables aleatorias discretas los 
valores cuantiles generalmente se obtienen por interpolación, dado que no siempre 
es posible obtener una solución exacta. 

Los cuantiles utilizados comúnmente son los percentiles, deciles y cuartiles. Los 
percentiles son los puntos que dividen a la distribución de probabilidad en 100 inter- 
valos, cada uno con probabilidad 0.01; los deciles y cuartiles son los puntos que dividen 
a la distribución de probabilidad en 10 y cuatro intervalos, cada uno con probabili- 
dad de 0.1 y 0.25, respectivamente. Nótese que la mediana es también el cincuentavo 
porcentil, el quinto decil y el segundo cuartil. 

El recorrido interdecil es la diferencia entre el noveno y primer decil, y el recorri- 
do intercuartil es la diferencia entre el tercer y primer cuartil. De esta manera el 
recorrido interdecil es una medida de la dispersión de la mitad del 80% de la distri- 
bución de probabilidad, en tanto que el recorrido intercuantil refleja la variación de 
la mitad del 50% de la distribución. En ambos casos, al excluir los efectos de los va- 
lores extremos de la distribución, se tiene la capacidad de medir la variabilidad de 
una variable aleatoria alrededor de la mitad de su distribución de probabilidad. 

Los recorridos interdecil e intercuartil, son dos medidas de dispersión que se 
emplean en disciplinas como educación, economía, finanzas e ingeniería. El recorri- 
do interdecil se emplea muchas veces en pruebas educacionales para medir la varia- 
bilidad en el desempeño sin importar los valores por arriba o por debajo de un 10% 
de un valor predeterminado. El recorrido intercuartil se emplea en muchas oca- 
siones, en economía y finanzas, para medir la variabilidad de una variable aleatoria 
alrededor de una porción de su distribución de probabilidad. 


Definición 3.13 La desviación media de una variable aleatoria X es el valor espera- 
do de la diferencia absoluta entre X y su media, y está dado por: 


EX — ul = Y lx — ulptx) si X es discreta, O 


toda y 
EX - nl = k lx — uļ/(x)dx si X es continua, 


A pesar de que la desviación media es una medida legítima de dispersión, existen dis- 
tribuciones de probabilidad para las que dar un tratamiento analítico es o muy difícil 
o imposible. A pesar de todo y como se ilustró en el capítulo uno, la desviación me- 
dia es una alternativa viable a la desviación estándar como medida de dispersión 
para conjuntos de datos cuyo fundamento se encuentra en evidencia empírica. Debe 
notarse que para distribuciones con valores grandes en sus extremos, el valor de la 
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desviación media se ve menos afectado que la desviación estándar por la existencia 
de valores extremos. 


Ejemplo 3.11 Supóngase que en cierto proceso de llenado, la desviación entre el 
peso verdadero de un recipiente con respecto al valor específico, es una variable 
aleatoria Z, cuya función de densidad de probabilidad está dada por 


JO = oz -<z <x, 


Determinar la media, la desviación estándar, el recorrido interdecil, el recorrido in- 
tercuartil y la desviación media de Z. 


Como se verá en el capítulo cinco, esta función de densidad es un miembro espe- 
cial de una familia muy útil en las distribuciones que reciben el nombre de familia 
normal o Gausiana. De hecho, la función de distribución acumulativa de Z se en- 
cuentra bien tabulada, como puede observarse en la tabla D de! apéndice. Además, 
como se verá posteriormente: 


E(Z) = 0, Var(Z) = 1, y d.e.(Z) = 1. 


Para determinar el recorrido interdecil, los valores cuantiles zo, y Zo. se en- 
cuentran definidos por: 


A 0% E Lo 0% £ 
l exp(—t/2)ddt=0.1 y a ka exp(—ťt/2)dt = 0.9 
y se obtienen de la tabla D*; sus valores son Zọı = — 1.28 y Zos = 1.28. El recorri- 
do interdecil es Zo9 — Zo, = 2.56 En otras palabras, el 80% de todos los reci- 
pientes presentarán una desviación no mayor de 1.28 unidades, en cualquier direc- 
ción del peso especificado. De manera similar, a partir de la tabla D los valores 
cuantiles Zo.2s y 20.75 son —0.675 y 0.675 respectivamente. Por lo tanto, el recorrido 
intercuartil es 2025 = —0.675 Zo7s — Zo2s = 1.35 unidades. 

Puesto que para la desviación mediana E(Z) = 0, se tiene: 


1 > 
E —=) az 
ElZ| ls Izlexp(— z7/2)dz 


2 x 
= al z.exp(— 2*/2)dz 


x 


2 
= — —=expl- 2?/2) 
T 


V2 
2/V2r 
= 0.7979 unidades. 


0 


* El uso de la tabla D se explica con mucho detalle en el capítulo cinco. 
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Nótese que dado que la desviación estándar es uno, el recorrido interdecil es de apro- 
ximadamente 2.56 unidades de la desviación estándar, el recorrido intercuartil es de 
1.35 unidades de la desviación estándar y la desviación media tiene un valor de apro- 
ximadamente 0.7979 unidades de la desviación estándar. Los resultados anteriores 
son siempre válidos para la familia de distribuciones normales. 

El siguiente ejemplo ilustra una situación teórica, en la que se tiene una distribu- 
ción con algunos valores muy grandes y para la cual la mediana, el recorrido interde- 
cil y el recorrido intercuartil son medidas de tendencia central y dispersión más apro- 
piadas que la media y la varianza. 


Ejemplo 3.12 Sea X una variable aleatoria cuya función de densidad de probabili- 
dad está dada por: 


1 -1/2 1/2 
BEE E expl(—x'*/4) x>0 
fa, = 


0 para cualquier otro valor. 


Determinar la media, la varianza, la desviación estándar, la mediana, el recorrido 
intercuartil y el recorrido interdecil de X. 


Se deja como ejercicio la gráfica de esta función de densidad de probabilidad y 
verificar que su integral sea igual a uno. El lector no tendrá ningún problema para 
notar que esta función de densidad exhibe un rápido decaimiento hacia el eje hori- 
zontal; teniendo en cuenta esta propiedad, la distribución anterior puede ser apro- 
piada para representar la edad a la que fallece una persona como resultado de las 
enfermedades padecidas en su niñez, como la escarlatina y la difteria (hace una gene- 
ración) y, en mayor frecuencia, la leucemia (en la actualidad). 


El valor esperado de X es: 
If 1f7 
EX) =z | x'? exp(—x"?/4)dx = f 4u exp(—u)32udu = 161 (3) = 32, 
en donde u = x"?/4, x = 16u?, y dx = 32udu. De manera similar: 
If S 
E(X?) = 3) xP expl- x"?/4)dx = 256 Í, u* exp(—u)du = 2561 (5) = 6 144. 
de manera tal que Var (X) = 5 120 y d.e.(X)) = 71.55. 
Para determinar los valores cuantiles, primero se obtendrá la función de distri- 
bución acumulativa: 
1 x x1/2/4 
F(x) = f pin expt—1'*/4)dt = f exp(— u)du = l Sar exp(—x'?/9), 


en donde u = 1'/4 y dt = 32udu. Por definición, la mediana es el valor xo; tal 
que F(xəs) = 0.5. Por lo tanto: 
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` 1 — exp(- -x03/4) = 0. Ss. 
exp(— E =0.5 
l —x12/4) = In(0.5) 


Xos = [-41n(0.5)? = 7.6872. 


En otras palabras, el 50% de los valores de X serán menores de 7.6872, a pesar de 
que la media tiene un valor de 32, lo que constituye una diferencia muy grande entre 
los valores de la media y la mediana. Para demostrar cuán inapropiada es la media 
de X como única medida de tendencia central, considérese la probabilidad de que X 
sea menor que su valor medio: 


P(X < 32) = F(32) = 1 — exp(- 32'?/4) = 0.7569. 


De acuerdo con lo anterior, el valor de 32 para la media difícilmente puede interpre- 
tarse como una medida representativa de tendencia central si la probabilidad de que 
la variable aleatoria exceda el valor de su media es menor de 0.25. 

Los percentiles décimo, 25avo, 75avo y 90avo se determinan encontrando el va- 
lor de x, de las ecuaciones F(x,) = 0.1, 0.25, 0.75, y 0.90, respectivamente. Por 
lo tanto: 


1 — exp(—x(?/4) = 0.1 
exp(—x1?/4) = 0.9 
xo, = [-4 In(0.9)7”, 


Y Xo, = 0.1776. De manera similar, xp», = [-4 In(0.75)? = 1.3242, xo.zs = [-4 
In(0.25)? = 30.7490, Y xəs = [-4 In(0.1) = 84.8304. El recorrido intercuar- 
til de X es Xo,s — Xos = 30.7490 — 1.3242 = 29.4248, el recorrido interdecil 
eS Xo9 — Xo = 84.8304 — 0.1776 = 84.6528. Nótese que la desviación estándar de 
X es, aproximadamente 2.5 veces el recorrido intercuartil y casi tan grande como el re- 
corrido interdecil. Este resultado, junto con los hechos de que el 25% de los valores 
son menores de 1.3242, el 50% es menor de 7.6872 y el 75% menores de 30,49, de- 
muestran que la varianza, y por lo tanto la desviación estándar, son inadecuadas como 
únicas medidas de variabilidad. 


3.7 Funciones generadoras de momentos 


Hasta este momento se han presentado distintas formas para determinar los momen- 
tos de una variable aleatoria dada su distribución de probabilidad. Como método al- 
ternativo se presenta la esperanza de cierta función conocida como función genera- 
dora de momentos. 


Definición 3.14 Sea X una variable aleatoria. El valor esperado de exp(tX) recibe 
el nombre de función generadora de momentos, y se denota por (1). si el valor es- 
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perado existe para cualquier valor de ż¢ en algún intervalo -c < £ <`c en donde c 
es un número positivo. En otras palabras: 


mx(t) = Elexp(:X)] = 5 exp(tx)p(x) si X es discreta, o 


~ mx(t) = Elexp(tX)] = l ño exp(tx f(x)dx si X es continua. 


Nótese que mx(t) nada más es función del argumento f. Si £ = 0, entonces my(0) 
= E(e?) = 1. Si la función generadora de momentos existe, puede demostrarse que 
es única y que determina por completo la distribución de probabilidad de X. En otras 
palabras, si dos variables aleatorias tienen la misma función generadora de momen- 
tos, entonces tienen la misma distribución de probabilidad. Este resultado se utilizara, 
de manera extensa, en el capítulo siete. 

Si la función generadora de momentos existe para —c < t < c, entonces existen 
las derivadas de ésta de todas las Órdenes para £ = 0. Lo anterior asegura que mm y(t) 
generará todos los momentos de X alrededor del origen. Para demostrar lo anterior, 
se diferencia my(t) con respecto a t, y se evalúa la derivada en £ = 0. Suponiendo 
que pueden intercambiarse los símbolos de diferenciación y esperanza, se tiene: 


dmx(t) 
dt 


li 


d 
di E [exp(1X)] 


ll 
o 


1=0 


d 
=E fa expa} 


= E[Xexp(1X)l.-o 
=E(X)= p. 


Al tomar la segunda derivada y evaluar en ż = 0. 


d’mx(t) o æ 
mE oe 7 
d? 
=E [E texan] 
=E d ix X )] 
E 


= ElX exptX)] l-0 
= E(X’) = p3. 


Al continuar este proceso de diferenciación se puede deducir que se obtiene el 
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d'm) |. _d' l 
dt" 1=0 a dr E [expt] 120 
d' 
=E [z (pto 
= E[X'exp(1X)] |.-o 
= E(X’) =p. 


mismo resultado si se reemplaza la función exponencial por su expansión en serie de 
potencias 


ex? UX’ ) 
+ ... 
2! r! 


Elexp(1X)] = El +X + — ++ 


y se toman las derivadas con respecto a £, evaluando cada una de éstas en f = 0. 

La noción de una función generadora de momentos puede extenderse a otros 
puntos de referencia, además del origen. En particular, se define una función central 
generadora de momentos la que, si existe, generará todos los momentos centrales de 
una distribución de probabilidad. 


` Definición 3.15 Sea X una variable aleatoria. El valor esperado de exp[(X — u) 
recibe el nombre de función generadora de momentos central y denota por my-., (1), 


si el valor esperado existe para cualquier ź en algún intervalo—c < t < c en donde 
c es un número positivo. 


Mx- Xt) = EfexpldX — wi) = ` exp[tx — u)]p(x) si X es discreta, O 


mx- (1) = ElexpldX — u)l) = Í _ expli — wl fwdx si Xes continua. 


La comprobación de que my-,„(t) genera todos los momentos centrales se deja 
como ejercicio al lector, 


Ejemplo 3.13 Sea X una variable aleatoria con función de densidad de probabilidad 


l 
i g E*PC 1/0) x>0, 
Xx) = 


0 para cualquier otro valor. 


en donde 0 es un número mayor que cero. Determinar la función generadora de mo- 
mentos de X. i 
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Por definición 


mx(t) = | exp(tx) Sana 
lis li 
=z CP x(g lx 

A E G- r) 
= aa -on P ~Ne 


= (1 - 6097. 
Por lo tanto: 
dmy(t) Li 
AA = (1 — 00) < 
dt 1=0 1=0 
= 0 = E(X), 
y 
d’mx(t) y p 
= 281 — 007? 
d? t=0 r=0 
= 20* = E(X?. 


dando como resultado, Var(X) = 2@ — 8? = f?, y así sucesivamente. 
Ejemplo 3.14 Sea X una variable aleatoria discreta con función de probabilidad: 


exp(—AJA* 


M x=0,1,2.., 


p(x) = 
en donde A es un número mayor que cero. Determinar la función generadora de mo- 
mentos de X. 

De acuerdo con la definición se tiene: 


5 exp(tx)jexp(— A) A* 


mx(t) = i 
x=0 Xx. 


H 


exp(— Y) Pepo, 


x=0 


Dado que: 


5 ARO =p et 


v=0) 


2 r! 


= expla exp(^}. 
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entonces: 

mx(t) = exp(— A) explaexp(1)]. 
Por lo tanto: 


dmx(t) 
dt 1, 


Aexp(— AJexp(t)exp a expo 


1=0 


1 
o 


A = E(X). 
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Ejercicios 


3.1. Sea X una variable aleatoria que representa el número de llamadas telefónicas que reci- 
be un conmutador en un intervalo de cinco minutos y cuya función de probabilidad está 
dada por p(x) = e? (3¥/x!, x =0,1,2,.... 


a) Determinar las probabilidades de que X sea igual a 0, 1, 2, 3, 4, 5,6 y 7. 
b) Graficar la función de probabilidad para estos valores de X. 

c) Determinar la función de distribución acumulativa para estos valores de X. 
d) Graficar la función de distribución acumulativa. 


3.2. Sea X una variable aleatoria discreta. Determinar el valor de k para que la función p(x) = 
k/x,x = 1, 2, 3, 4,sea la función de probabilidad de X. Determinar P(l < X 
< 3). 

3.3. Sea X una variable aleatoria continua. 
a) Determinar el valor de k, de manera tal que la función 


=1l<x<l, 


fx) = | 
0 para cualquier otro valor 


sea la función de densidad de probabilidad de X. 
b) Determinar la función de distribución acumulativa de X y graficar Fbo. 
c) Calcular P(X => 1/2) y P(- 1/2 < X < 1/2). 


3.4. Sea X una variable aleatoria continua. 
a) Determinar el valor de k para que la función 
| k exp —x/5) x>0, 


para cualquier otro valor 


fo = 


sea la función de densidad de probabilidad de X 


0 ER o 0 a 


TETEPI E a A. 


3.5. 
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b) Graficar fx). 
c) Calcular P(X < 5) y P(0 < X < 8). 
d) Determinar F(x) y graficarla. 


La duración en horas de un componente electrónico, es una variable aleatoria cuya fun- 
ción de distribución acumulativa es F(x) = 1 — exp(—x/100), x > 0. 


_ a) Determinar la función de próbabilidad de X. 


3.6. 


II. 


3.8. 


3.9. 


b) Determinar la probabilidad de que el componente trabaje más de 200 horas. 
La función de distribución acumulativa de una variable aleatoria está dada por 
0 x<0, 
Fix) = 4 2x-x 0<x<l, 
1 x>l. 
a) Graficar Flo. 


b) Obtener P(X < 1/2) y P(X > 3/4). 
c) Determinar fo. 


Sea X una variable aleatoria que representa el número de clientes que llega a una tienda 
en un periodo de una hora. Dada la siguiente información 


p(x)]0.05 0.10 0.10 0.10 0.20 0.25 0.10 0.05 0.05 


encontrar E(X) y VanX). 


Una compañía de seguros debe determinar la cuota anual a cobrarse por un seguro de 
$50 mil para hombres cuya edad se encuentra entre los 30 y 35 años. Con base en las 
tablas actuariales el número de fallecimientos al año, para este grupo, es de 5 por cada 
mil. Si X es la variable aleatoria que representa la ganancia de la compañía de seguros, 
determinar el monto de la cuota anual para que la compañía no pierda, a pesar de tener 
un número grande de tales seguros. 


La función de densidad de probabilidad de una variable aleatoria X está dada por: 
21 — x) 0<x<1, 
fœ = y 
para cuałquier otro valor 


Determinar: 


a) E(X) b) Var(X) 


. Sea X una variable aleatoria que representa la magnitud de la desviación, a partir de un 


valor prescrito, del peso neto de ciertos recipientes, los que se llenan mediante una má- 
quina. La función de densidad de probabilidad de X está dada por: 
1/10 0<x< 0 
fu) = l 
para cualquier otro valor 


Determinar: 


a) E(X) c) aX) 
b) Varí X) d) ad X) 
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3.11. 


3.12. 


3.13. 


3.14. 


3.15. 


3.16. 


3.17. 


3.18. 


3.19. 


Supóngase que la duración en minutos de una llamada de negocios, es una variable alea- 
toria cuya función de densidad de probabilidad está determinada 


q expi—x/4) x>0, 


fœ = F 
para cualquier otro valor 
Determinar: : 
a) E(X) 
b) Var(X) 
c) œ(X) 
d) aX) 


e) Refiérase al ejercicio 3.10. Basándose en sus respuestas a las preguntas a, a d del 
problema 3.11, compare las dos distribuciones de probabilidades. ¿Cuál muestra la 
mayor dispersión relativa? 

La calificación promedio en una prueba de estadística fue de 62.5 con una desviación es- 
tándar de 10. El profesor sospecha yue .i examen fue difícil. De acuerdo con lo ante- 
rior, desea asustar las calificaciones de manera que el promedio sea de 70 y la desviación 
estándar de 8. ¿Qué ajuste del tipo aX + b, debe utilizar? 


Sea X una variable aleatoria con media u y varianza o”. 


a) Evaluar E(X — c)? en términos de u y a” en donde c es una constante. 
b) ¿Para qué valor de ces E(X — c) mínimo? 


Con respecto al ejercicio 3.11, demostrar que la variable aleatoria Y = (X — 4)/4 


tiene media cero y desviación estándar uno. Demostrar que los factores de forma, pri- 
mero y segundo, de la distribución de Y son los mismos de la distribución de X. 


Considérese la función de densidad de probabilidad de X dada en el ejercicio 3.9. Deter- 
minar la desviación media de X y compararla con su desviación estándar. 


Considérese la función de densidad de probabilidad de X dada en el ejercicio 3.10. De- 
terminar la desviación media de X y compararla con su desviación estándar. 


Supóngase que el ingreso semanal de un asesor profesional es una variable aleatoria 
cuya función de densidad de probabilidad está determinada por: 


800 


L exp( —x/800) x>0, 
Ka) = 
0 para cualquier otro valor 


a) Determinar los ingresos medios y medianos. 

b) Determinar el recorrido intercuartil. 

c) Determinar el recorrido interdecil. 

d) Determinar la probabilidad de que el ingreso semanal exceda al ingreso promedio. 


Comprobar que la función generadora de momentos central de una variable aleatoria 
X, genera todos los momentos centrales de X. 


La función de densidad de probabilidad de una variable aleatoria X está determinada: 


re $x exp( —./4) x>0, 
Ax) = 


0 para cualquier otro valor 


3.20. 


3.21. 
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a) Determinar la función generadora de momentos de X. 
b) Utilizar la función generadora de momentos para encontrar la media y la varianza de X. 


Considérese la función de densidad de probabilidad dada en el ejercicio 3.11. Encontrar 
la función generadora de momentos y utilizarla para comprobar los valores de la media 
y la varianza, determinados en el ejercicio 3.11. 


Sea X una variable aleatoria discreta con función de probabilidad p(x) x = 0,1,2,...,n, 
y sean a, b, y c constantes. Demostrar que Etc) = c, ElaX + b) = dE(X) + b, y 
Elg(A) + h(X M = Elg(X)) + ElA(4)], en donde g(x) y h(x) son funciones de X. 


. Para la variable aleatoria discreta del ejercicio anterior, utilizar las definiciones 3.8 y 3.9 


para demostrar que Var(X) = E(X”) — EXX). 


CAPÍTULO CUATRO 


Algunas distribuciones 
discretas de probabilidad 


4.1 Introducción 


En el capítulo dos se establecieron algunos principios básicos de probabilidad. En el 
capítulo tres estos principios se aplicaron para definir variables aleatorias y distri- 
buciones de probabilidad así como para desarrollar sus propiedades generales. En 
los capítulos cuatro y cinco se examinarán con detalle algunas distribuciones especí- 
ficas de probabilidad que han demostrado, empíricamente, ser modelos útiles para 
diversos problemas prácticos. A pesar de ello tales distribuciones presentan un ca- 
rácter teórico en el sentido en que sus funciones de probabilidad o de densidad de 
probabilidad se deducen matemáticamente con base en ciertas hipótesis que se supo- 
nen válidas para los fenómenos aleatorios. La elección de una distribución de proba- 
bilidad para representar un fenómeno de interés práctico debe estar motivada tanto 
por la comprensión de la naturaleza del fenómeno en sí, como por la posible verifi- 
cación de la distribución seleccionada a través de la evidencia empírica. En todo mo- 
mento debe evitarse aceptar de manera tácita una determinada distribución de pro- 
babilidad como modelo de un problema práctico. 

Se examinarán varias distribuciones tanto discretas como continuas. En cada 
caso se expondrán detalladamente las características distintivas de las distribuciones 
particulares de probabilidad y se deducirán o se establecerán sus medias, varianzas, 
factores de forma, y otras medidas descriptivas numéricas. Como se sugirió en el 
capítulo uno, una distribución de probabilidad está caracterizada, de manera gene- 
ral, por una o más cantidades que reciben el nombre de parámetros de la distribu- 
ción. Un parámetro puede tomar cualquier valor de un conjunto dado y, en ese sen- 
tido, define una familia de distribuciones de probabilidad, que tendrán la misma 
función genérica de probabilidad o función de densidad de probabilidad. Se tratarán 
varios tipos de parámetros tales como el conteo, la proporción, la rapidez, la locali- 
zación y la forma. Se adoptarán las letras n y k para referirse a los parámetros de 
conteo, p para la proporción A para la rapidez, ¡4 para la localización, o y 6 para 
la escala, y œ y 8 para la forma. Cuando la presentación sea de una naturaleza muy 
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general y no se esté tratandoningún tipo de parámetro en particular, se empleará 0 
para designar ese parámetro. 

Los parámetros de conteo y de proporción son autoexplicatorios. Un parámetro 
de rapidez representa la rapidez en que ocurre un evento aleatorio en el tiempo o en 
el espacio. Un parámetro de localización relaciona la función (densidad) de probabi- 
lidad con el origen de la escala de medición, localizándola sobre el eje de las x sin te- 
ner algún efecto sobre su apariencia. La presencia de un parámetro de localización u 
en la función de probabilidad es siempre de la forma (x — u). Un parámetro de es- 
cala es una cantidad que relaciona las unidades físicas de la variable aleatoria y de 
esta forma la escala. Un parámetro de escala influye sobre la dispersión de una va- 
riable aleatoria, y de esta forma afecta la apariencia de la función de probabilidad. 
La aparición de un parámetro de escala en la función de probabilidad es de la forma 
x/0. Un parámetro de forma afecta la forma de la función de probabilidad en di- 
verso grado, dependiendo del modelo en particular. A pesar de que en muchas oca- 
siones el parámetro de forma se encuentra en un exponente en la función de probabi- 
lidad, no existe ninguna forma estándar en la que pueda asociarse a x sin importar su 
aparición en la función de probabilidad. 

Se examinarán con detalle cuatro familias de distribuciones de probabilidad 
discreta y se harán comentarios sobre su aplicación. Estas son las distribuciones bi- 
nomial, Poisson, hipergeométrica y la binomial negativa. 


4.2 La distribución binomial 


Es una de las distribuciones discretas de probabilidad más útiles. Sus áreas de aplica- 
ción incluyen inspección de calidad, ventas, mercadotecnia, medicina, investigación 
de opiniones y otras. Se puede imaginar un experimento en el que el resultado es la 
ocurrencia o la no ocurrencia de un evento. Sin pérdida de generalidad, llámese 
“éxito” a la ocurrencia del evento y “*fracaso”* a su no ocurrencia. Además, sea p la 
probabilidad de éxito cada vez que el experimento se lleva a cabo y 1— pla probabili- 
dad de fracaso. Supóngase que el experimento se realiza n veces, y cada uno de éstos 
es independiente de todos los demás, y sea X la variable aleatoria que representa el 
número de éxitos en los » ensayos. El interés está en determinar la probabilidad de 
obtener exactamente X = x éxitos durante los n ensayos. Las dos suposiciones cla- 
ves para la distribución binomial son: 


l. La probabilidad de éxito p permanece constante para cada ensayo. 
2. Los n ensayos son independientes entre sí. 


Varios problemas prácticos parecen adherirse razonablemente a las suposiciones 
anteriores. Por ejemplo, un proceso de manufactura produce un determinado produc- 
to en el que algunas unidades se encuentran defectuosas. Si la proporción de unidades 
defectuosas producidas por este proceso es constante durante un periodo razonable y, 
si como procedimiento de rutina, se seleccionan aleatoriamente un determinado núme- 
ro de unidades, entonces las proposiciones de probabilidad con respecto al número de 
artículos defectuosos puede hacerse mediante el empleo de la distribución binomial. 
La publicidad para la venta de un producto también puede considerarse otro ejemplo. 
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Si se supone que la probabilidad de venta es constante para todas las personas, la 
distribución binomial será el modelo de probabilidad adecuado puesto que las perso- 
nas tienen un criterio independiente para comprar. Como ejemplo final, el Centro 
para el Control de Enfermedades tiene, entre sus distintas funciones, la responsabili- 
dad de vigilar las enfermedades transmisibles. Para cumplir con ella, debe examinar la 
propagación de una enfermedad determinada con base en la probabilidad. Es dudoso 
que la probabilidad de contraer una enfermedad transmisible, sea constante para toda 
la población. Sin embargo, para una parte de ésta, por ejemplo las personas que 
tienen una edad determinada, sí puede ser constante, de manera tal que la distribución 
binomial puede ser un modelo de probabilidad adecuado. 

Para obtener la función de probabilidad de la distribución binomial, primero se 
determina la probabilidad de tener, en n ensayos, x éxitos consecutivos seguidos de n 
—x fracasos consecutivos. Dado que, por hipótesis, los n ensayos son independientes 
de la definición 2.15, se tiene: 

pippi- pa pd p)= pil - py”. 
CAS, QU pi 
x términos (n — x) términos 


La probabilidad de obtener exactamente x éxitos y n — x fracasos en cualquier otro 
orden es la misma puesto que los factores p y (1 — p) se reordenan de acuerdo con el 
orden particular. Por lo tanto, la probabilidad de tener x éxitos y n — x fracasos en 
cualquier orden, es el producto de p'(1 — p)"”* por el número de órdenes distintos. 
Este último es el número de combinaciones de n objetos tomando x a la vez. De 
acuerdo con lo anterior se tiene la siguiente definición: 


Definición 4.1 Sea X una variable aleatoria que representa el número de éxitos en n 
ensayos y p la probabilidad de éxito con cualquiera de éstos. Se dice entonces que X 
tiene una distribución binomial con función de probabilidad.* 


TE ÓS SE EN 
px; n, p) = : an 


0 para cualquier otro valor. 0 < p = 1, paran entero. 


Los parámetros de la distribución binomial son n y p. Éstos definen una familia 
de distribuciones binomiales, en donde cada miembro tiene la función de probabili- 
dad determinada por (4.1). Para ilustrar el efecto de estos parámetros, la figura 4.1 
proporciona algunas gráficas de la distribución binomial. Se dará más información 
sobre éstas cuando se discutan los momentos y otras medidas descriptivas. 

El nombre ““distribución binomial”? proviene del hecho de que los valores de p 
(x; n, p) para x = 0, 1,2... n son los términos sucesivos de la expansión binomial de 
[(l — p) + pl"; esto es, 


* Para mantener la consistencia, se empleará la notación p( ) para indicar la función básica de probabili- 
dad. El autor no piensa que el lector se confundirá por el empleo de p (x; n, p) para la función de probabi- 
lidad binomial y el uso de la letra p para el parámetro de proporción. 


È 
t3 


A er 
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FIGURA 4.1 Gráficas de la función binomial de probabilidad 


-I 
[A — p) + p? =(1 -p +n- pro lp La - —- pP +e pp” 


E n! E 
7 2 (a = Dx! PAC 


nx 


n 


X pœ; n, p). 


x=0 


Il 


Pero dado que [(1 — p) + pJ" = l y p(x; n, p) > 0 para x = 0, 1, 2... n, este 
hecho también verifica que p (x; n, p) es una función de probabilidad. 
Para ilustrar el cálculo de probabilidad mediante el empleo de (4.1) sea n = 5 y 
= 0.4 entonces: 


5! 


p(x; 5, 0.4) = Ga (0.43 (0.67%, x = 0, 1, 2, 3, 4, 5; 
asi: 
5! 
p(0; 5, 0.4) = B 00: (0.4)™(0.6) 7% = 0.0778, 
5! m 
p(l; 5, 0.4) = Tone .4)'(0.6)7' = 0.2592, 
, 5! 
p(2; 5, 0.4) = IA 410.6)? = 0.3456, 
4 S! S- 
p3; 5, 0.4) = ==, (0.4)(0.6)7 ° = 0.2304, 


- 33! 
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E 5! 4 5-4 
p(4; 5, 0.4) = —gyrg (0-430.6) 0.0768, 


5! 
5; 5, 0.4) = ——— (0.4) PS 
pí 0.4) = G=55 (0.4)0.6) 0.0102. 
La probabilidad de que una variable aleatoria X sea menor o igual a un valor 
específico de x, se determina por la función de distribución acumulativa 


P(X < x) = F(x; n, p) = 5 (») pa - py”. (4.2) 


i=0 


La distribución binomial se ha tabulado de manera extensa para distintos valores 
de n y p, ya sea mediante el empleo de (4.1) o (4.2) o ambas. En la tabla A del apén- 
dice, se proporcionan las probabilidades acumulativas para distintos valores de x, n, y 
p. Pueden determinarse las probabilidades individuales mediante el empleo de esta 
tabla puesto que la variable aleatoria binomial tiene un valor entero, y la propiedad 


p(x; n, p) = F(x; n, p) — Fix — l; n, p) 


se verifica. Para ilustrar el uso de la tabla A, sean = 10 y p = 0.3. La probabilidad 
de que X pueda ser cuatro es: 


P(X < 4) = F(4; 10, 0.3) = 0.8497; 
la probabilidad de que X sea mayor de dos es: - 
P(X > 2) = P(X >= 3)= 1- P(X<2)=1- FO; 10, 0.3) = 0.6172; 
y la probabilidad de que X sea de exactamente cinco es: 
p(5; 10, 0.3) = FG; 10, 0.3) — F(4; 10, 0.3) = 0.1030. 
Debe notarse que si n = 1, la función de probabilidad binomial se reduce a: 


pa SEN] p“ x= 0, l , 
px, p)= (4.3) 
0 para cualquier otro valor, 


que es la función de probabilidad de la distribución puntual o de Bernoulli. La 
distribución de Bernoulli recibe este nombre por el probabilista suizo Jacques Ber- 
noulli (1654-1705) quien desarrolló por primera vez el concepto de ensayos indepen- 
dientes. 


Ejemplo 4.1 Todos los días se seleccionan, de manera aleatoria, 15 unidades de un 
proceso de manufactura con el propósito de verificar el porcentaje de unidades de- 
fectuosas en la producción. Con base en información pasada, la probabilidad de te- 
ner una unidad defectuosa es de 0.05. La gerencia ha decidido detener la producción 
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cada vez que una muestra de 15 unidades tenga dos o más defectuosas. ¿Cuál es la 
probabilidad de que, en cualquier día, la producción se detenga? 


Si el modelo apropiado para esta situación es la distribución binomial, se puede 
suponer que las 15 unidades que se seleccionan a) día, constituyen un conjunto de 
ensayos independientes de manera tal que la probabilidad de tener una unidad defec- 
tuosa es 0.05 entre ensayos. Sea X el número de unidades defectuosas que se en- 
cuentran entre las 15. Paran = 15 y p = 0.05, la probabilidad de que la producción se 
detenga es igual a la probabilidad de que X sea igual o mayor que dos. De esta ma- 
nera: 


P(X = 2) = } — P(X < 1) = 1 — F(1; 15, 0.05) = 0.1709. 


Ejemplo 4.2 Supóngase que para personas de determinada edad, la probabilidad 
de que mueran por una enfermedad transmisible es 0.001. ¿Cuántas personas de este 
grupo pueden exponerse a la enfermedad de manera que la probabilidad de que no 
más de una persona muera sea por lo menc; 0.95? 


Para aplicar la distribución binomial a esta situación, la suposición crucial es que 
la probabilidad de muerte es constante para todos los individuos que forman parte 
del grupo y que contraen la enfermedad. Sea X el número de muertes que ocurren en 
n individuos por haber contraído el padecimiento. El valor de n para que la probabi- 
lidad de que X sea menor o igual a uno tenga un valor mayor O igual a 0.95: 


P(X < 1) = F(1; n, 0.001) > 0.95, 


y para la igualdad: 


X (») (0.001(0.999)""* = 0.95 


x=0 
(5) (0.001)0.999)" + a (0.001)'(0.999)"7! = 0.95 


(0.999)'" (0,999 + 0.0017) = 0.95. 


Esta ecuación no se resuelve de manera explícita para n; sin embargo, mediante el 
empleo de técnicas iterativas* puede determinarse que el valor entero de n que satis- 
face la ecuación es n = 356. 

En este punto se determinarán los momentos para la distribución binomial. Se 
ilustrarán tanto el método directo, con base en la definición 3.8, como el método in- 
directo, con base en la función generadora de momentos. 


* Una técnica iterativa es un método numérico para resolver una ecuación mediante una sucesión de valo- 
res hasta que el último valor se encuentra muy cercano al que satisface la ecuación. 
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Por la definición 3.8, el primer momento alrededor del cero de la variable aleato- 
ria binomial X es el valor esperado de X, 


E(X) = 


| 
¡Ma 
= 
= 
Nr 
e y 
n 


pr - py” 
Xx! 


se n: 

E AAA A O l = n—x 
2 Pa NA 

en donde se ha escrito la suma desde uno hasta n, dado que cuando x = 0 el primer 

término es cero y se cancela la x del numerador con la x en x!. Factorizando n y p, se 

tiene: 

k (n — 1)! 


eS x—1 e n—x 
E(X) = O o 01 p (1 p) 


Siy=x-—1ym = n-—1, entonces: 


E(X) = np D aT pa- p”. 
Pero p(y; m, p) = [m!/(m — y!y!p’ (Q — p)"? es la función de probabili- 
dad de una variable aleatoria binomial Y con parámetros m = n— 1 y p; de esta ma- 
nera 2y-0 p(y; m, p) = 1, y la media de una variable aleatoria binomial es: 


E(X) = u = np. (4.4) 


Para obtener la varianza, se necesita el segundo momento alrededor del cero, 43, 
o: 


EX?) = Y xp; n, p); 


pero, en el termino x*/x! se cancelará una sola x en el numerador, y la que resta evi- 
tará que la suma se manipule de la misma forma en que se determinó la media. La al- 
ternativa es escribir x? como: 


x? = x(x 1) +x; 
de esta manera se tiene: 
E(X?) = E[X(X - 1)] + E(X). (4.5) 


Dado que E(X) ya se ha determinado, puede usarse el mismo procedimiento para 


i 
i 
$ 
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evaluar E[X(X — 1)): 


n ! 
EXX - D) = È xa — 1) l py 


220 (n — x)!x! 


2 1 
SY xx — 1) g gr - p~ 
x=2 


= 27 n= rr TAN 


[i 
E - l)p? y a 


x-2 L n-x 
aa a 


Nótese que en los pasos anteriores se escribió la suma a partir de dos porque los dos 
primeros términos son cero, se canceló x(x — 1), y se factorizó n(n — 1)p?. Sea 
y=x-2ym=mn- 2; entonces: 


EX(X — D] = n(n — Dp? n T pa- p”? 


T 


= n(n — 1)p? Y, p(y; m, p) 
y=0 


= n(n — 1)p?. 
De (4.5) 
E(X?) = w = n(n — 1)p? + np. 
De esta manera, la varianza de una variable aleatoria binomial es: 
Var(X) = p,- p 


n(n — D)p? + np - np? 


np [(n — l)p + 1 - np] 
np(l ~ p). (4.6) 


tí 


Este método general puede extenderse para determinar los momentos de orden 
superior. Por ejemplo, para obtener el tercer momento alrededor del cero, se deter- 
mina E[X(X — 1MX — 2)] dado que: 

EX(X — 1(X — 2)1* = u5 — 3u; + 2u. (4.7) 


De manera similar, para el cuarto momento alrededor del cero se evalúa E[X(X — 1) 
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(X — 21(X — 3)] dado que: 
EX(X — 1XX — 21X — 3))* = u4 — 6u; + llu; — 6u. (4.8) 


Para una variable aleatoria binomial: 


: ' 
EXX - IX - D) = Y xx — Dr - 2 p“ - py" 


x=0 (n — x)lx! 


ero TAS Pa- py 
e e py 
= n(n — ln - 2)p* Èz Lo zi l- p) 
m! y m-y 
= n(n — Mín - 2)p* 2? pra py” 


n(n — In — 2)p". 
Mediante el empleo de (4.7), | 
ps — 3m; + 2u = n(n — In - 2)p' 
w = n(n — Dn — 2)p? + 3[nín — 1)p? + np] — 2np 

= n(n — Na — DP + 3n(n — 1)p? + np. (4.9) 
El tercer momento central w, puede determinarse por (3.8), 
pay = n(n — Da — 2)p? + 3ní(n — 1)p? + np — 3np[nín — 1) + np] + 21? p 
la que, después de un poco de álgebra, se reduce a: 
u = np(1 — pa — 2p). (4.10) 


Por lo tanto, de (3.9) el tercer momento estandarizado de la distribución binomial es: 


_ rpl- pI - 2p) 
SEO E p 


[np(1 — p)] 


np(l — pX — 2p) 
np(l — p\inp(l — p)) 


1/2 


E l — 2p 
= TE ES (4.11) 


* Expresiones como éstas dan lo que se conoce como momentos factoriales. De hecho, el r-ésimo momen- 
to factorial de una variable aleatoria X es E[X(X — MX — 2) (X - r + Dl 


| 


S roo 
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Para el cuarto momento alrededor del cero, se tiene: 


EIX - IX — 2X - 3)] = Y x(x — 1)(x — 2Mx = 3). 


1=0 


n! 


. =D p(l y py 
Ñ Èg EE 4)! pu pro 


li 


n(n — Dn — 2Xn — 3)p* 


o (n— 4) 


M p~ n- 
RACETE d- 2) 


= n(n — ln — 2Xn — 3)p* 
1 


= n(n — Da — 2Xn — 3)p*. 
Sustituir en (4.8) y para resolver u4, se tiene: 
14 = nin — Día — 2n — 3)p* + binin — 1)n ~ 2)p? 
+ 3n(n — 1p? + np] — 1lín(n — 1)p? + np] + 6np. (4.12) 
De acuerdo con (3.10), el cuarto momento central es: 
Ha = pa — 4up; + 6u po — 3u’, 
el que, después de una sustitución adecuada y un poco de manipulación algebraica, es 
u4 = np(l — pX3np(l — p) + [1 — 6p — p))). (4.13) 


De acuerdo con (3.11), el cuarto momento estandarizado de la distribución binomial 
es: 


_ ap — p)Bnpll — p) + {1 -6p — DI Ed [1 — 6p1 PM la 
wpU- py np(l — p) 

Las propiedades básicas de la distribución binomial se encuentran resumidas en 
la tabla 4.1. Nótese que la media de una variable aleatoria binomial es el producto 
del número de ensayos y la probabilidad de éxito en cada uno de éstos y la varianza 
es el producto de la media por la probabilidad de tener un fracaso. La varianza de 
una variable aleatoria binomial siempre es menor que el valor de su media. 
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TABLA 4.1 Propiedades básicas de la distribución binomial. 


Función de probabilidad f Parámetros 
p(x; n, p) = TEE pa - py" n, entero positivo 
p0<p<il 


x=0,1,2,..,n 


Coeficiente de 


Media Varianza sesgo Curtosis relativa 
l -2p 3 U — 6p(1 — p)] 
np mp(l — p) [np(1 — py” ap(l — p) 


Para obtener una mejor perspectiva de la distribución binomial y de su forra, <° 
calcularán a, y a, para distintos valores del parámetro n, de acuerdo con la tabla 
4.2. Puede concluirse a partir de ésta, que la distribución binomial es simétrica si p 
= 1/2, con sesgo positivo si p < 1/2, y sesgada negativamente si p > 1/2. Para 
los últimos dos casos, el sesgo se vuelve menos evidente conforme n es más grande. 
Además, la distribución binomial es relativamente plana si p = 1/2. Para cualquier 
otro valor de p, la distribución binomial presenta un pico relativamente grande. Sin 
embargo, si n es grande a, tiende a tres para cualquier valor de p y la distribución 
es mesocúrtica. 

De acuerdo con la definición 3.14, la función generadora de momentos para la 
distribución binomial es: 


= tX AA II VA E nx 
my(t) = Ele") = 2e PER PTAS p) 


n! t xX pe n-x 
= 2 am EP p) 
(1 — př + n(1 — pe'p) 
n(n — 1) 
MET 
= [(1 — p) + e'pl”. (4.15) 


(1 - pe'p? + + (ep) 


TABLA 4.2 Factores de forma de la distribución binomial para distintos valores de p 


p = 1/10 p = 1/2 p = 9/10 

8 -8 

o 3n 0 3h 
46 2 46 

ES e 3+2 

“i i 9n 3 n úl 9n 
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Al tomar las dos primeras derivadas de (4.15) con respecto a f, se tiene: 


dmx(t 
Tl — nepili = p) + pr 
E N 
d? t g | 
À mo = n(n T7 1)(e'př i = p) + e'p]" ~? + ne'pi(l e p) + epJ!. 


Si £ = 0, se obtienen los momentos primero y segundo alrededor del cero, 


dmy(t) PEA n—-1 
de li npi(l — p) + p) 
y: 
d? 
mt = n(n — DPI — p) + p>? + npl — p) + po! 
1=0 


n(n — l)p? + np, 


que son idénticos a los determinados mediante el empleo del método directo. Los 
momentos de orden superior pueden determinarse mediante la continuación de este 
proceso de diferenciación y al evaluar la derivada en £ = 0. Nótese que para este 
caso los primeros dos momentos alrededor del cero se obtienen de manera más fácil 
empleando la función generadora de momentos que tiene el método directo. Sin em- 
bargo, esto no ocurre en general. 


Ejemplo 4.3 Un club nacional de automovilistas comienza una campaña telefónica 
con el propósito de aumentar el número de miembros. Con base en experiencia pre- 
via, se sabe que una de cada 20 personas que reciben la llamada se une al club. Si en 
un día 25 personas reciben la llamada telefónica ¿cuál es la probabilidad de que por 
lo menos dos de ellas se inscriban al club? ¿Cuál es el número esperado? 


Puesto que una de cada 20 personas se suscriben al club, p = 0.05. Además, si se 
supone que las 25 personas constituyen un conjunto de ensayos independientes (una 
suposición muy razonable en este caso) con una probabilidad constante p = 0.05 de 
suscribirse al club, y si la variable aleatoria X es el número, de entre n = 25, que ter- 
mina suscribiéndose al club, la probabilidad deseada es: 


PX=>2)=1-P(X=< Il) = 1 - F(1; 25, 0:05) = 0.3576. 
Mediante el empleo de (4.4), el valor esperado de X es E(X) = (2510.05) = 1.25. 
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4.3 La distribución de Poisson 


Llamada asi en honor de Siméon Denis Poisson, probabilista francés del siglo XIX. 
quien fue el primero en describirla, es otra distribución discreta de probabilidad 
muy útil en la que la variable aleatoria representa el número de eventos independien- 
tes que ocurren a una velocidad constante. Muchos eventos aleatorios ocurren de 
manera independiente con una velocidad constante en el tiempo o en el espacio. Al- 
gunos ejemplos típicos son el número de personas que llegan a una tienda de auto- 
servicio en un tiempo determinado, el número de defectos en piezas similares para el 
material, el número de bacterias en un cultivo, el número de solicitudes de seguro 
procesadas por una compañía en un periodo específico, etc. De hecho, la distribu- 
ción de Poisson es el principal modelo de probabilidad empleado para analizar 
problemas de líneas de espera. Además, ofrece una aproximación excelente a la fun- 
ción de probabilidad binomial cuando p es pequeño y n grande. La deducción de la 
función de probabilidad de Poisson se desarrolla en un apéndice que se encuentra al 
final de este capítulo. 


Definición 4.2 Sea X una variable aleatoria que representa el numero de eventos 
aleatorios independientes que ocurren a una rapidez constante sobre el tiempo o el 
espacio. Se dice entonces que la variable aleatoria X tiene una distribución de Pois- 
son con función de probabilidad. 


er 5 
paa =<¢ Y! n (4.16) 


0 para cualquier otro valor. 


El parámetro de la distribución de Poisson es A, el número promedio de ocurren- 
cias del evento aleatorio por unidad de tiempo. Para valores mayores que cero, A defi- 
ne una familia de distribuciones con una función de probabilidad determinada por 
(4.16). En la figura 4.2 se proporcionan algunas gráficas de la función de probabili- 
dad de Poisson, para distintos valores de A: 


FIGURA 4.2 Gráficas de la función de probabilidad de Poisson 
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Puede verificarse que (4.16) es una función de probabilidad, puesto que 
p(x; AJ> 0 para x =0,1,2...y 


en ER enn 
; À) = 
i 2 pis ) 2 x! 
OE 
€ Xx 
A? 
EN kis Fi 
=e ( PATT ) 
= ee 
= 1, 
Para ilustrar, sea A = 1.2; entonces 
212] 91 
p(x; 1.2) = e: x=0,1,2 
De esta forma se tiene 
21.21 90 21.2] 94 
p(0; 1.2) = —— = 0.3012, p(4; 1.2) = Ê zr = 0.0260, 
2121 21 -1.21,25 
p(l; 1.2) = A = 0.3614, p(5; 1.2) = == = 0.0062, 
2121 22 -1.21,26 
p(2; 1.2) = eoe = 0.2169, p(6; 1.2) = Ê zr = 0.0012, 
2121 93 4217 9 
p(3; 1.2) = => = 0.0867, p(T; 1.2) = E = 0.0002. 


A pesar de que puede continuarse este proceso sin finalizar, nótese que las proba- 
bilidades individuales son más y más pequeñas conforme la variable aleatoria toma 
valores cada vez más grandes. Ésta es una característica general de la distribución de 
Poisson. 

La probabilidad de que una variable aleatoria de Poisson X sea menor o igual a 
un valor de x se determina por la función de distribución acumulativa. 


v 


P(X < x) = Fx; A) = X 


i=0 


e` ^i 
i! 


y (4.17) 


En la tabla B del apéndice, se encuentra tabulada (4.17) para distintos valores de x y 
A. Nótese de nuevo que la variable aleatoria de Poisson tiene un valor entero, y que 
pueden usarse los valores de las probabilidades acumulativas de la tabla B para de- 
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terminar las probabilidades individuales mediante el empleo de la relación: 
pla; A) = Fl A) — Fx — 15. 
2.5. 


A continuación se dan varios ejemplos del empleo de la tabla B. Sea A 
La probabilidad de que X sea menor que tres es: 


TN Ñ PX<) = P(X < 2) = F(2;2.5) = 0.5438; 
a | 


SEA a AT e 


la probabilidad de que X sea mayor que cuatro es: 


g g A 
Da P(X > 4) = 1 — P(X < 3) = 1 — F(3; 2.5) = 0.2424; 
n= 2 LISIK 


y la EA de que X tome el valor de dos está dada por: )* 


= dipen 
2 


pQ; 2.5) = F(2; 2.5) — F(1; 2.5) = 0.2565. 


Ejemplo 4.4 Después de una prueba de laboratorio muy rigurosa con cierto compo- 
nente eléctrico, el fabricante determina que en promedio, sólo fallarán dos componen- 
tes antes de tener 1 000 horas de operación. Un comprador observa que son cinco los 
que fallan antes de las 1 000 horas. Si el número de componentes que fallan es una 
variable aleatoria de Poisson, ¿existe suficiente evidencia para dudar de la conclu- 
sión del fabricante? 


La duda en estadística puede apoyarse en términos de la probabilidad. Si un 
evento debe o no ocurrir bajo ciertas condiciones, su ocurrencia se decide en térmi- 
nos de la probabilidad del evento bajo esas condiciones. Si la probabilidad de 
ocurrencia es pequeña y el evento ocurre, entonces se puede preguntar, con justifica- 
ción, por las condiciones. Al mismo tiempo debe tenerse en mente que un valor de 
probabilidad pequeño no impide la ocurrencia del evento, a menos que este valor sea 
cero. En dicho caso, se tiene que A = 2. Se supone que la frecuencia con que 
ocurren las fallas es constante e igual a dos por cada mil horas o un promedio de 
1/500 unidades por hora. La probabilidad de que fallen cinco componentes en mil 
horas es: 


-295 


2 
5 7 0.0361, 


p(s; 2) = Ê 


y la probabilidad de que por lo menos fallen cinco en 1 000 horas es: 


) z 
H P(X >= 5) = | — F(4; 2) = 0.0527. 


Ambas probabilidades son, de manera relativa, pequeñas. Esto es, si el número 
de fallas en mil horas está descrita de manera apropiada por la distribución de Pois- 
son con una frecuencia constante de dos, existe una probabilidad de observar exac- 
tamente cinco unidades defectuosas de 0.0361 y una probabilidad de 0.0527 de ob- 
servar por lo menos cinco en el mismo periodo de operación. Sin embargo, antes de 
tomar cualquier medida en contra del fabricante, es necesario contestar algunas pre- 


l 
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guntas. Por ejemplo, ¿es la frecuencia de falla constante e igual a dos durante mil 
horas? Aun si lo anterior fuese cierto, ¿es el medio de operación el mismo bajo el 
cual el fabricante hizo sus pruebas? Esto es, ¿es posible tener factores extraños, 
introducidos de manera inadvertida, que estén causando un número tan alto de 
fallas? Las preguntas anteriores sólo pueden constestarse con una comprensión 


completa de la situación. 
a” N 


Ejemplo 4.5 Considérese el juego de fútbol que se efectúa entre los 28 equipos que 
constituyen la Liga Nacional de Fútbol (NFL). Sea la variable aleatoria de interés el 
número de anotaciones — seis puntos (touchdowns) — de cada equipo por juego. 
Con el presente número de anotaciones por equipo en la temporada de 1979, ¿existe 
alguna razón para creer que el número de anotaciones es una variable aleatoria de 
Poisson? i í 


Para contestar a esta pregunta, se compararán los resultados observados con los 
que se esperarían si el número de anotaciones fuese una variable aleatoria de Pois- 
son, como se muestra en la tabla 4.3. La cuarta columna indica la probabilidad teó- 
rica para cada uno de los valores que aparecen en la primera columna, suponiendo 
que el número de anotaciones es una variable aleatoria de Poisson. 

Los valores de la cuarta columna se determinan con el cálculo del valor del pará- 
metro A de la distribución de Poisson y la evaluación de la función de probabilidad 
(4.16) para los valores-de la columna uno. El valor de A se obtiene sumando los pro- 
ductos de las correspondientes posiciones de la primera y tercera columnas, 


A = (01(0.0781) + (1)(0.2210) + -*- + (7)(0.0067) 
= 2.435 


TABLA 4.3 Distribución del número de anotaciones de seis puntos por equipo y por juego 
en la NFL, durante la temporada de 1979 


Número de Número 

Número de veces Frecuencia Probabilidad esperado de 
anotaciones observadas relativa teórica ocurrencias 

0 35 0.0781 0.0876 39.24 

l 99 0.2210 0.2133 95.56 

2 104 0.2321 0.2597 116.34 

3 110 0.2455 0.2108 94.44 

4 62 0.1384 0.1283 57.48 

5 25 0.0558 - 0.0625 28.00 

6 10 0.0223 0.0254 11.38 

7* 3 0.0067 0.0124 5.56 

Totales 448 0.9999 1.0000 448 


APE A A A PEA RE 
* En realidad, esta cifra representa siete o más anotaciones, pero su ocurrencia es definitivamente escasa 
en la NFL. 
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lo que representa el números promedio de anotaciones por equipo y por juego. Las 
probabilidades puntuales se calculan mediante el empleo de: - 


e7?+4%2.435y 


p(x; 2.435) = : 
x! 


x=0,1,2,.... 


Éstos son los primeros siete renglones de la cuarta columna. El último renglón es la 
probabilidad de que X sea mayor o igual a siete. Los renglones de la última columna 
se encuentran multiplicando cada renglón de la columna cuatro por 448. 

La comparación de las columnas dos y cinco, o de las columnas tres y cuatro, re- 
vela una concordancia muy razonable. Por lo tanto, puede concluirse que el número 
de anotaciones es una variable aleatoria de Poisson. Que la variable aleatoria sea del 
tipo Poisson, se basa en que el número de anotaciones por equipo y por juego en la 
NFL es un conjunto de eventos aleatorios independientes, de manera que la frecuen- 
cia de anotación es constante durante los 60 minutos del juego. La frecuencia de 
anotación puede ser más constante en la NFL como consecuencia de la calidad del 
juego y del oponente que en el fútbol colegial. 

La distribución de Poisson también es una forma límite de la distribución bino- 
mial cuando n —> x y p—>0 de manera que no permanece constante. Este resul- 
tado se obtiene mediante el siguiente teorema, formulado por Siméon Poisson. 


Teorema 4.1 Sea X una variable aleatoria con distribución binomial y función de 
probabilidad: 


p(x;n,p) = pa - py” x=0,1,2,...2. 


(n — x)'x! 
Si paran = 1,2... la relación p = A/n es cierta para alguna constante A > 0, en- 
tonces: 


enn 
xa? 


lim p(x; n, p) = == 0 dada 


n—x 


p—=0 


La prueba del teorema 4.1 se proporciona en un apéndice al final del capítulo. 

En el contexto del teorema 4.1, la distribución de Poisson se piensa como aquélla 
en la que la variable aleatoria puede tomar valores distintos (n es grande pero las 
probabilidades son pequeñas) y — p = A/n tiene un valor cercano a cero. Como 
resultado, la función de probabilidad de Poisson se emplea de manera extensa para 
aproximar la función de probabilidad binomial cuando n es, de manera relativa, 
grande y p pequeño, de manera tal que A = np tiene un valor moderado. En la tabla 
4.4. se ilustra la mejoría en la aproximación Poisson de la función de probabilidad 
binomial conforme n crece y p decrece tal que A = np permanece constante e igual 
a dos. 


Ejemplo 4.6 Un comprador de grandes cantidades de circuitos integrados ha adop- 
tado un plan para aceptar un envío de éstos y que consiste en inspeccionar una 
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TABLA 4.4 ; Comparación de las probabilidades binomial y de Poisson 


Binomial de Poisson 
x . p(x; 10, 0.2) ptx; 20, 0.1) p(x; 40, 0.05) px; 100, 0.02) px; 2) 
0 0.1074 0.1216 0.1285 0.1326 0.1353 
l ` 0.2684 0.2702 0.2706 0.2707 0.2707 
2 0.3020 0.2852 0.2777 0.2734 0.2707 
3 0.2013 0.1901 0.1851 0.1823 0.1804 
4 0.0881 0.0898 0.0901 0.0902 0.0902 
5 0.0264 : 0.0319 0.0342 0.0353 0.0361 
6 0.0055 0.0089 0.0105 0.0114 0.0120 
7 0.0008 0.0020 0.0027 0.0031 0.0034 
8 0.0001 0.0004 0.0006 0.0007 0.0009 
9 0.0000 0.0001 0.0001 0.0002 0.0002 


muestra aleatoria de 100 circuitos provenientes del lote. Si el comprador encuentra 
no más de dos circuitos defectuosos en la muestra, acepta el lote; de otra forma, lo 
rechaza. Si se envía al comprador un lote que contiene 1% de circuitos defectuosos, 
¿cuál es la probabilidad de que éste sea aceptado? 


Sea X la variable aleatoria que representa el número de circuitos defectuosos en- 
contrados en una muestra de 100 y supóngase que X tiene una distribución binomial. 
En otras palabras, se supone que los 100 circuitos seleccionados del lote constituyen 
100-ensayos independientes, de manera tal que la probabilidad de tener un circuito 
defectuoso es constante e igual a 0.01. La probabilidad de aceptar el lote es la misma 
de X con valor menor o igual a dos. Dado que n = 100 es relativamente un valor 
grande y p = 0.01 es pequeño; la probabilidad binomial puede aproximarse median- 
te la distribución de Poisson, escogiendo A = np = 1: 


P( aceptación) = P(X < 2) = Fp*(2; 1) = 0.9197. 


Debe notarse por comparación que si se empleara la distribución binomial se 
tendría: 


P(X < 2) = Fy*(2; 100, 0.01) = 0.9206. 


Los momentos de la variable aleatoria de Poisson se determinan mediante los 
mismos procedimientos utilizados para obtener los momentos de la variable aleatoria 
binomial. Si X es una variable aleatoria de Poisson, su valor esperado es: 


E(X) = xX 


a la 1)! 


* Se emplean los subíndices para distinguir entre las dos funciones de distribución. Se emplearán las mis- 
mas marcas para distinguir entre dos funciones de probabilidad, cuando sea necesario. 
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_ ey ATT! 
ao- 1)! 
se Y, =x-1 
y=0 y! ? 
= A. (4.18) 
Para la varianza X: 
i en 
EX(X — 1)] = È xx ai= 
E x-2 
az 2 -A 
Ke 2 Q- 2)! 
x A“ 
= Ne? Y, y=x-2 
y=0 
A (4.19) 
Entonces, de (4.5): 
E(X?) = mX tA, 
y la varianza de X es: 
Var(X) = m — p? 
=X +A- 
=N; (4.20) 


De esta manera, una caracteristica distintiva de la variable aleatoria de Poisson es 
que su media es igual a su varianza. 

El ejercicio para el lector es que demuestre que, para el tercer momento central, 
se tiene: 


EIX(X — IXX - 2)] = A. (4.21) 

Mediante el empleo de (4.7): i 
BERIA +A, 

y el tercer momento central es: 


p3=A. 


me 


Como resultado, el coeficiente de asimetria se determina por: 


a, = m/p? = 1/yh. (4.22) 
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Para el cuarto momento central puede emplearse el mismo procedimiento para 
demostrar que: À 


EXX - X -DX -3J =A, 42) 
y de (4.8): Ey A 


py =M +60 + 4d. (4.24) 
Mediante el empleo de (3.10) el cuarto momento central es: 
Mp4 = 3 + A, 


y el cuarto momento estandarizado para la distribución de Poisson lo establece: 


1 
A = m,/ W} = 3 + x (4.25) 


Se proporciona un resumen de las propiedades de la distribución de Poisson en la 
tablą 4.5. La distribución de Poisson se encuentra sesgada positivamente para cual- 
quier valor A > 0, pero la asimetria disminuye para valores relativamente grandes 
de A. Además, la distribución de Poisson es leptocúrtica, puesto que a, es mayor 
que tres, pero tiende a convertirse en mesocúrtica para valores grandes de A. 

La función generadora de momentos para la distribución de Poisson se determi- 
na por: ; 


mx(t) = 


| 
M 
a 
a) 
1 
> 
> 
>= 


exp [A(e' — 1]. (4.26) 


TABLA 4.5 Propiedades básicas de la distribución de Poisson 


Función de probabilidad Parámetro 
erp 
px; A = xi A>0 
x=0,1,2,... 
Coeficiente ; 
Media Varianza de asimetría Curtosis relativa 


; 1 
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Nótese que, como se esperaba: my(0) = e™'7" = 1. El ejercicio para el lector es 
demostrar que (4.26) da los momentos de la variable aleatoria de Poisson después de 
llevar a cabo el proceso de diferenciación apropiado. 

En conclusión, la distribución de Poisson es leptocúrtica con un sesgo positivo y 
se emplea para modelar el número de eventos aleatorios independientes que ocurren 
a una rapidez constante ya sea sobre el tiempo o el espacio. Se ha empleado de mane- 
ra extensa para el estudio de línea de espera, confiabilidad y control de calidad. Es 
también una forma límite de la distribución binomial y la aproxima de manera ade- 
cuada para valores grandes de n y pequeños de p. Sin embargo, debe aplicarse cuida- 
dosamente la distribución de Poisson a situaciones en las que las condiciones de in- 
dependencia y rapidez constante de ocurrencia son dudosas. 

Por ejemplo, considérese la distribución del número de infracciones recibidas por 
los automovilistas en un periodo de diez años. Puede argumentarse que la distribu- 
ción de Poisson es el modelo de probabilidad adecuado, pues la probabilidd de reci- 
bir una infracción en un día cualquiera es pequeña y ha, muchos días en diez años. 
Sin embargo, no es común que las condiciones de independencia y rapidez constante 
sean válidas. La independencia es dudosa debido a que si un automovilista en parti- 
cular recibe una infracción, es razonable pensar que manejará de manera más cuida- 
dosa. En grupos de distinta edad esta frecuencia puede variar, ya que las compañías 
aseguradoras sostienen que los conductores de mayor edad respetan más los límites 
de velocidad que los conductores jóvenes. 


4.4. La distribución hipergeométrica 


Para establecer las condiciones básicas que llevan a otra distribución discreta de pro- 
babilidad conocida como hipergeométrica, considérese el siguiente problema: sea N el 
número de representantes de un determinado estado que asisten a una convención 


política nacional, y sea k el número de los que apoyan al candidato A, mientras - 


que el resto N — k apoya al candidato B. Supóngase que una organización informativa 
selecciona aleatoriamente a n representantes y les pregunta sus razones para apoyar 
a los candidatos. Si X es una variable aleatoria que sustituye el número de represen- 
tantes en la muestra que apoyan al candidato A, ¿cuál es la función de probabilidad 
de X? 

Esta situación parece ser binomial porque entre N representantes de un estado 
existen dos grupos distintos con probabilidad k/N y (N —k)/N. Sin embargo, consi- 
dérese con más detalle el proceso de selección para la muestra de n representantes. 
Es razonable suponer que se selecciona un representante, se le preguntan sus razones 
y no vuelve a ser seleccionado.* El resultado es que no existe independencia entre la 
selección de un representante y el siguiente. Por ejemplo, supóngase que el primer 
representante seleccionado apoya al candidato A. Entonces quedan N — 1 represen- 
tantes de los cuales k —1 apoya a A. Por lo tanto, la probabilidad condicional de que 


* Esto se conoce como muestreo sin reemplazo y es una condición fundamental para la distribución hi- 
pergeométrica. En la distribución binomial, se supone que el muestreo se hace con reemplazo, aseguran- 
do la independencia y la probabilidad constante. 


l 
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el siguiente candidato apoye también a A es (k — 1)/(N —1) y no K/N, y la probabili- 
dad condicional de que el siguiente representante apoye a B es (N —K)/(N — 1) y no 
(N—pD/N. 

Para determinar la probabilidad de que, de maneras exacta, se seleccionen x 
representantes que apoyen a A y n — x que apoyen a B, se procederá de la siguiente 
forma: el número de maneras distintas en que puede seleccionarse una muestra de n 
representantes de un total de Nes (Y); y cada muestra tiene una probabilidad de selec- 
ción igual a 1/(7). De manera similar, la selección de x personas que apoyen a A es 
un evento que puede ocurrir de (*) maneras distintas, y la selección de (n — x) repre- 
sentantes que apoyen a B es un evento que puede suceder de (Y Z £) maneras. El nú- 
mero total de maneras en que ambos eventos pueden ocurrir es (£ IU Z$). De esta 
forma, la probabilidad de seleccionar x representantes que apoyen al candidato A es 


k\[N-k 
xj \n-x 
Co 
[N 
a 
Definición 4.3 Sea N el número total de objetos en una población finita, de mane- 
ra tal que k de éstos es de un tipo y N — k de otros. Si se selecciona una muestra alea- 


toria* de la población constituida por n objetos de la probabilidad de que x sea de un 
tipo exactamente y n —x sea del otro, está dada por la función de probabilidad hi- 


pergeométrica: 
ALLER 
JAN —= X x=0,1,2,...,n3 x<k, n-xS<N-kK; 
p(x; N, n, k) = N : N, n, k, enteros positivos, (4.27) 
n 
0 para cualquier otro valor 


Los parámetros de la distribución hipergeométrica son N, n, y k. Éstos definen 
una familia de distribuciones con función de probabilidad determinada por (4.27). 
En la figura 4.3 se muestran algunas gráficas de (4.27) para distintas combinaciones 
de N, n, y k. 

La función de probabilidad (4.27) de la distribución hipergeométrica y la función 
de distribución acumulativa, definida por: 

k\[N-k 
i n—i 


PX < x) = F(x; N, n, k) = 5 ——, (4.28) 
i=0 


* Véase el capítulo siete para la definición de una muestra aleatoria. 
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012345 01234x 


FIGURA 4.3 Gráficas de la función hipergeométrica de probabilidad 


se encuentra tabulada en [4] para valores de N, n, y k desde N = 2, n = 1 hasta N 
= 100 yn = 50. Una parte de éstas se encuentra en la tabla C del apéndice. El cálcu- 
lo de las probabilidades hipergeométricas puede convertirse en tedioso, especialmen- 
te si n es grande. Sin embargo, puede simplificarse si se emplea la siguiente fórmula 
de recursión, 


AI 
px +1iN,n, k) = INCA PEPE p(x; N, n, k), (4.29) 


la cual se puede obtener directamente de la función de probabilidad hipergeométrica. 


Ejemplo 4.7 Supóngase que se tienen 50 representantes de cierto estado, a una con- 
vención política nacional, de los cuales 30 apoyan al candidato A y 20 al candidato B. 
Si se seleccionan aleatoriamente cinco representantes, ¿cuál es la probabilidad de 
que, entre estos cinco, por lo menos dos apoyen al candidato A? 


Sea X la variable aleatoria que representa el número de personas en la muestra 
que apoyan a A. Para N = 50, n = 5, y k = 30, la función de probabilidad de X está 


dada por: 
30 20 
XxX IS=x 


pix; 50, 5,30) = —————, x=0,1,..., 5, 


(5) 


P(X = 2) = I — P(X < I) = 1 — [p(0; 50, 5, 30) + p(1; 50, 5, 30)]. 


y la probabilidad de que X > 2 es: 


¿ 
a 
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Dado que: . 


e) (2) 


` p(0; 50, 5,30) = 2 = — = 0.007317, 


A 


y, de (4.29): 
p(0; 50, 5, 30) = 0.068597, 


(5 — 0130 — 0) 


1; 50, 5, 30) = E 
piis = OFI 3054+011 


se encuentra que: 


P(X = 2) = 1 — (0.007317 + 0.068597) = 0.9241. 


Un área muy fructifera en aplicaciones para la distribución hipergeométrica es 
el contro! estadístico de calidad y la aceptación de muestreo. En este contexto sea N el 
número de unidades en un lote, de las cuales k se encuentran defectuosas. Si se selec- 
ciona una muestra aleatoria del lote formada por n < N unidades, la probabilidad 
de que la muestra contenga x unidades defectuosas se determina mediante el empleo de 
la función hipergeométrica de probabilidad (4.27). En aceptación del muestreo, la 
razón de que sólo se seleccione la muestra de un lote obedece más bien a restricciones 
de tiempo y dinero. La deċisión de cuándo aceptar o rechazar un lote se basa, de ma- 
nera general, en el número de artículos defectuosos encontrados en él. Estos concep- 
tos se tratarán con gran detalle en el capítulo once. 


Ejemplo 4.8 Considérese un fabricante de automóviles que compra los motores a 
una compañía donde se fabrican bajo estrictas especificaciones. El fabricante recibe 
un lote de 40 motores. Su plan para aceptar el lote consiste en seleccionar ocho, de 
manera aleatoria, y someterlos a prueba. Si encuentra que ninguno de los motores 
presenta serios defectos, el fabricante acepta el lote; de otra forma lo rechaza. Si el 
lote contiene dos motores con serios defectos, ¿cuál es la probabilidad de que sea 
aceptado? 


Sea X el número de motores defectuosos en la muestra. Para N = 40,n = 8,y k 
= 2, la probabilidad de aceptación es 
21/38 
0/18 


p(0; 40, 8, 2) = ——— = 0.6359. 


De esta manera el lote 40 tiene una probabilidad menor de 2/3 de ser aceptado si 
contiene dos motores defectuosos. Debe notarse que la esencia del control 
estadístico de calidad es la mejoría de la calidad del producto. Si un vendedor sabe 
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que su producto pasará por una selección que verifica la calidad del producto, puede 
poner en marcha en su propia fábrica un control de calidad intencionado con el pro- 
pósito de minimizar el número de lotes rechazados. Por lo tanto, es razonable supo- 
ner que esta práctica dará como resultado un producto de calidad superior. 

¿Qué pasa con la distribución hipergeométrica si el tamaño de la muestra n es 
sólo una pequeña fracción de un lote de tamaño N relativamente grande? Supóngase 
que se envía un lote de 2 mil unidades de las cuales 40 se encuentran defectuosas. Si 
se selecciona una muestra de 50, sin reemplazo, la probabilidad de que el primer ar- 
tículo seleccionado se encuentre defectuoso es de 40/2 000 = 0.02. La probabilidad 
condicional de que el segundo artículo también se encuentre defectuoso dado que el 
primero lo fue, es 39/1 999 = 0.0195. A pesar de que estas probabilidades no tienen 
el mismo valor, puede argumentarse, desde un punto de vista práctico, que la diferen- 
cia es insignificante. Es por esta razón que en muchas ocasiones se emplea la distri- 
bución binomial para aproximar a la distribución hipergeométrica cuando el cocien- 
te n/N es pequeño, 

Si la proporción de artículos defectuosos en el lote es p = k/N, puede escribirse 
la función de probabilidad hipergeométrica como: 


tr) 


Pux; N, n, p = ————— (4.30) 


(5) 


lím p(x; N, n, p) = P(x; n, p), 


Nox 


Puede demostrarse entonces que 


en donde py(x; n, p) es la función de probabilidad binomial. De esta forma la 
distribución hipergeométrica tiende a la binomial con parámetros n y p/k/N confor- 
me el cociente n/N se vuelve más pequeño. De manera general, la función de probabi- 
lidad binomial aproximará de manera adecuada a (4.30) si se tiene que n < 0.1N. 
En la tabla 4.6 se proporcionan algunas comparaciones entre las probabilidades bi- 
nomial e hipergeométrica conforme el cociente n/N disminuye. 


Ejemplo 4.9 Un fabricante asegura que sólo el 1% de su producción total se en- 
cuentra defectuosa. Supóngase que se ordenan 100 artículos y se seleccionan 25 al 
azar para inspeccionarlos. Si el fabricante se encuentra en lo correcto, ¿cuál es la 
probabilidad de observar dos o más artículos defectuosos en la muestra? 


Sea X el número de artículos defectuosos en la muestra. Entonces X es una va- 
riable aleatoria hipergeométrica con parámetros N = 1 000,n = 25,yk = Np = 
(1 0001(0.01) = 10. Dado que el cociente n/N es, de forma considerable, menor de 
0.1, puede emplearse la distribución binomial para aproximar la probabilidad deseada: 


P(X >= 2)= | — PIX < 1) = 1 — Ft: 25, 0.01) = 0.0258, 


! 
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TABLA 4.6 Comparación entre los valores de probabilidad binomial o hipergeométrica 


Hipergeométrica Binomial  Hipergeométrica Binomial. Hipergeométrica Binomial 


x p(x; 100, 20, 5) p(x; 20, 0.05) p(x; 100, 10, 5) p(x; 10, 0.05) p(x; 100, 5, 5) p(x; 5, 0.05) 
0 0.3193 0.3585 0.5838 0.5987 0.7696 0.7738 
1 0.4201 A 0.3774 0.3394 0.3151 0.2114 0.2036 
2 0.2073 0.1887 0.0702 0.0746 0.0184 0.0214 
3 0.0478 0.0596 0.0064 0.0105 0.0006 0.0011 
4 0.0051 0.0133 0.0003 0.0010 0.0000 0.0000 
5 0.0002 0.0022 0.0000 0.0001 0.0000 0.0000 


en donde Fr(1; 25, 0.01) es la función de distribución acumulativa binomial. A 
continuación se analizará el proceso de decisión para este problema. La probabili- 
dad de tener dos o más artículos defectuosos en la muestra es muy pequeña. Supón- 
gase que se observan dos o más artículos defectuosos; entonces el proceso de decisión 
relativo al lote debe hacerse con base en la probabilidad. Esto es, si se supone que las 
condiciones son verdaderas, se ha observado algo que sólo tenía una oportunidad de 
2.5% de ocurrir. Por otro lado, si la aseveración del fabricante no es cierta y la pro- 
porción de artículos defectuosos es del 3%, entonces la probabilidad de observar dos 
o más defectuosos es 


P(X > 2) = 1 — F(1; 25, 0.03) = 0.1720, 


que es un valor más plausible a la luz de la evidencia actual que es de 0.0258. De esta 
forma, si se observan dos o más artículos defectuosos de entre los 25, se debe recha- 
zar el lote. : 

Para determinar la media de la distribución hipergeométrica se sigue un procedi- 
miento análogo al empleado para la distribución binomial. Si la función de probabi- 


lidad está dada por (4.27), 
KÍN—k 
X n-—xX 


E(X) 


> ; 


Il 
> 
M 
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pero puede demostrarse que: 


O: 
N! N (N - 1)! 
(N-n! n|N-nn- Di 
Entonces: 


nk E 
E(X) = — Na 
N S, M 
S 
nk 
= W? (4.31) 


la suma es igual a uno dado que es la suma de una función de probabilidad hipergeo- 

métrica con parámetros M, s, y r. Nótese que si p = k/N, la media de la variable 

aleatoria hipergeométrica es la misma que la de la variable aleatoria binomial. 
Con el mismo procedimiento puede demostrarse que la varianza de una distribu- 


ción hipergeométrica es: 


nk(N — k) (N-n) 5 
T N-I (4.32) 


Var(X) = 


Si p= K/N y- p=(N-kK/N, 


N-n 
Var(X) = npíl — Plz 5 J 


La varianza de una variable aleatoria hipergeométrica es más pequeña que la corres- 


sa A A E a abr 


pondiente a la variable aleatoria binomial por un factor de (N — m/(N — 1). Sin 
embargo, si N es grande al compararse con n, este factor se encontrará cercano a 
uno, dando como resultado una varianza prácticamente igual a la binomial. El resul- 
tado anterior era de esperarse ya que si n es sólo una pequeña fracción de un lote de 
tamaño N, la distribución hipergeométrica tiende a la distribución binomial. 

La determinación del coeficiente de asimetría y la curtosis relativa para la distri- 
bución hipergeométrica sigue el mismo procedimiento dado para la distribución bi- 
nomial. Estas cantidades se dan en la tabla 4.7. Nótese que para N > 2,si N < 2k 
osi N < 2n, la distribución hipergeométrica se encuentra sesgada negativamente. 
Si N = 2k osi N = 2n, es simétrica. Si N > 2k y N > 2n, la distribución se 
encuentra sesgada positivamente. El lector puede consultar [2] para la función gene- 
radora de momentos. Debe notarse que la función generadora de momentos repre- 
senta un trabajo muy tedioso para determinar los momentos. La tabla 4.7 propor- 
ciona un resumen de la información más importante para esta distribución. 


4.5 La distribución binomial negativa 


Sea un escenario binomial en que se observa una secuencia de ensayos independien- 
tes; la probabilidad de éxito en cada ensayo es constante e igual a p. En lugar de fijar 
el número de ensayos en n y observar el número de éxitos, supóngase que se conti- 
núan los ensayos hasta que han ocurrido exactamente k éxitos. En este caso, la va- 
riable aleatoria es el número de ensayos necesarios para observar k éxitos. Esta si- 
tuación lleva a lo que se conoce como la distribución binomial negativa. 


TABLA 4.7 Propiedades básicas de la distribución hipergeométrica 


Función de probabilidad Parámetros 
KN —k 
xX i =X 
pa; N, n, k) = N, n, k, enteros positivos 
(x) lsnsN; ISkSN 
n NSE y as 
x=0,1,2,...,2 
xk, n-xs<N-k 
Coeficiente Curtosis 
Media Varianza de asimetría relativa 
nk nkiN — AUN — n) (N — KXN — 2N - 1” x 
N NXN- 1) (N — DinkN — NN - my” 


E NN — 1) 
CAN — 2N — KN — ANN - n) 


[no + D- 6n(N — nm) + 3 an ~ HINA - 2) - Nr? + 6n(N — mi} 
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La determinación de la función de probabilidad sigue el mismo tipo de razona- 
miento empleado para obtener las funciones de probabilidad de las distribuciones 
binomial e hipergeométrica. Se desea determinar la probabilidad de que en el n- 
ésimo ensayo ocurra el k-ésimo éxito. Si se continúan los ensayos independientes 
hasta que ocurre el k-ésimo éxito, entonces el resultado del último ensayo fue éxito. 
Antes del último ensayo, habían ocurrido k — 1 éxitos en n — 1 ensayos. El número 
de maneras distintas en las que pueden observarse k — 1 éxitos en n — 1 ensayos es: 

z3 7 1). Por lo tanto, la probabilidad de tener k éxitos en n ensayos con el último 
siendo un éxito, es: 


pín; k, p) = (: z 1) p(l- pri: o n=kk+1,k+2,... (4.33) 


La expresión (4.33) es la función de probabilidad de lo que se conoce como la 
distribución de Pascal. Mediante el empleo de (4.33) puede obtenerse la distribución 
binomial negativa sustituyendo n = x + k en (4.33), en donde x es el valor de una 
variable aleatoria que representa el número de fracasos hasta que se observan, de ma- 
nera exacta, k éxitos. 


Definición 4,4 Sea X + k, el número de ensayos independientes necesarios para 
alcanzar, de manera exacta, k éxitos en un experimento binomial en donde la proba- 


bilidad de éxito en cada ensayo es p. Se dice entonces que X es una variable binomial 
negativa con función de probabilidad 


k x- X 
tx- l)a- p k 
k 1 0 


0 para cualquier otro valor 


0,1,2,.. 
l; 2, 
p(x; k, p) = p<1, (4:34) 


La distribución se llama “*binomial negativa” debido a que las probabilidades 
dadas por (4.34) corresponden a los términos sucesivos de la expansión binomial de: 


l1 1l- e) A 
p p 

Los parámetros de la distribución binomial negativa son k y p, en donde k no ne- 
cesita ser un entero. Si es así, la distribución se conoce como distribución de Pascal, 
misma que se interpreta como el tiempo que hay que esperar para que ocurra el k 


éxito. Si k no es entero, la función de probabilidad dada por (4.34) se escribe de ma- 
nera tal que se involucre a la función gama, 


a r4 +x) , A x=0,1,2,... 
AEDEP ERE 45d, 0=p<lL 


(4.35) 


En este contexto la distribución binomial negativa es un caso particular de la distri- 


; 
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bución de Poisson compuesta. Una distribución compuesta de una variable aleatoria 
X es aquella que depende de un parámetro que a su vez es una variable aleatoria con 
una distribución dada. En el capítulo seis se plantea este problema para la distribu- 
ción binomial negativa. 

Debe notarse que sik = 1 en (4. 34), s surge un caso apia de la distribución bi- 
nomial negativa, que se conoce con el nombre de distribución geométrica y cuya 
función de probabilidad está dada por 


pæ; p) = p - př, x=0,1,2..., 0<p<l. (4.36) 


La variable aleatoria geométrica representa el número de fallas que ocurren antes de 
que se presente el primer éxito. En la figura 4.4 se ilustran varias gráficas de la fun- 
ción de probabilidad binomial negativa (4.34) para varios valores de k y p. 

En la referencia [6] se encuentra una extensa tabla de probabilidades individual y 
acumulativas para la distribución binomial negativa. Es posible emplear ła distribu- 
ción binomial para obtener las probabilidades de la distribución binomial negativa. 
Puede demostrarse que si X es una variable aleatoria binomial negativa con función 
de probabilidad dada por (4.34), entonces: 


PX = x)= P(Y > k), 


en donde Y es una variable aleatoria binomial con parámetros n = k + x y p. Esto 
es: 


Eng (x; k, p) = 1 — Fa (k — l; k + x, p), (4.37) 


en donde Fyslx; k, p) esla distribución binomial negativa acumulativa y F(k — 
l; k + x p) es la distribución binomial acumulativa. Mediante el empleo de (4.37) 
puede determinarse las probabilidades individuales de la distribución binomial negati- 
va. Por ejemplo, 


k=4,)p=0,5 k=4,p=0.8 k=2,p=0.5 
0.4 Í 0.4 0.4 
0.3 0.3 0.3 
En 
x 0.2 0.2 0.2 
0.1 0.1 0.1 
012345678 012345 0123456x 


y 


FIGURA 4.4 Gráficas de la función de probabilidad binomial negativa 
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P(X = x) = Engla; k, p) — Fyglx — 1; k, p) 
= [1 - Ek 1;k + xp) - [1 — Falk — l;k + x - 1,p)] 
= Falk — l;k +x — 1,p) — Folk — ik + x, p). (4.38) 
Para ilustrar el uso de (4.37) y (4.34), sea k = 2 y p = 0.5 en (4.34): 
Puelx; 2, 0.5) = (x + 0.0.5, x = 0,1,2, .... 
La probabilidad de que X = 3 es 
P(X < 3) = Fys(3; 2, 0.5) = 1 — Fs(1; 5, 0.5) = 0.8125; 
la probabilidad de que X = 2es 
P(X = 2) = Fx1; 3, 0.5) — Fx(1; 4, 0.5) = 0.1875; 


y la probabilidad de que X > 1 es 


P(X > 1) = P(X > 2) = 1 — Frs(l; 2, 0.5) 
da t- [1 — Fa(l; 3,0.5)] 
0.5. 


ii 


La aplicación primaria de la distribución binomial negativa es una alternativa 
adecuada para el modelo de Poisson cuando la frecuencia de ocurrencia no es cons- 
tante sobre el tiempo o el espacio. También se emplea de manera frecuente para mo- 
delar las estadísticas de accidentes, datos psicológicos, compras del consumidor y 
otras situaciones similares en donde la frecuencia de ocurrencia entre grupos o indi- 
viduos no se espera que sea la misma. Por ejemplo, las estadísticas de accidentes au- 
tomovilísticos indican de manera consistente que los conductores jóvenes tienen 
más accidentes que los de más edad, y que los hombres tienen un mayor número de 
accidentes que las mujeres. Desde este punto de vista no debe tomarse la distribución 
binomial negativa en terminos de cuántos ensayos se necesitan para alcanzar un de- 
terminado número de éxitos. Más bien, debe considerarse como el número de 
ocurrencias en el tiempo o en el espacio cuando la frecuencia de éstas no es constan- 
te. Para una aplicación en particular, veáse la referencia [1]. 

Los momentos de una variable aleatoria binomial negativa pueden determinarse al 
obtener los momentos factoriales, como se hizo para las distribuciones binomial, de 
Poisson e hipergeométrica. También es posible obtener la media, la varianza, el coe- 
ficiente de asimetría y la curtosis relativa a partir de las expresiones dadas por (4.4), 
(4.6) y (4.14) respectivamente. Puede demostrarse que si estas expresiones reempla- 
zan los parámetros binomiales n, (1 — p) y p con las cantidades—k, 1/p y (1- pp, 
respectivamente, se obtendrán los momentos binomiales negativos deseados. De 
acuerdo con lo anterior, si X es una variable aleatoria binomial negativa con función 


b 
1 
t 
t 
i 
z 
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de probabilidad dada por (4.34): 


, 


E(X) = E | (4.39) 


k(l — 
Varíx) E (4.40) 
Š p w 
2-p 
a; ==» y (4.41) 
> KA — py? 
(pP — 6p + 6) 
= 34 —_—___—_ 4.42 
Mo K(i p) aa 
En la tabla 4.8 se proporciona la información más útil para la distribución bino- 
mial negativa. A partir de esta tabla son evidentes algunas propiedades básicas de tal 
distribución. La varianza es más grande que la media en forma permanente, así 
como la distribución presenta un sesgo positivo y es leptocúrtica puesto que a, 
siempre es más grande que tres, pero a, —> 3 conforme k —> oc, 


Ejemplo 4.10 En un artículo de R. Pollard (véase la referencia [5]) se demuestra 
que el número de anotaciones de seis puntos por equipo en el fútbol colegial se des- 
cribe de manera apropiada mediante una distribución binomial negativa. La tabla 
4.9 contiene información muy semejante a la que aparece en la tabla 4.3. Para deter- 
minar de manera teórica la probabilidad de ocurrencia, es necesario tener estima- 
ciones de los valores de los parámetros k y p. Dado que la media y la varianza de una 
variable aleatoria binomial negativa están dadas por (4.39) y (4.40) respectivamente, 
se resuelve para k y p y se obtiene: 


_ EX) EX) 
P = Vary y ” Var(X) - EX) 


TABLA 4.8 Propiedades básicas de la distribución binomial negativa 


Función de probabilidad Parámetros 
77 (A+x—IH a k, k > 0 (distribución de Pascal si 
PIDI ( k-1 ) PARP k es un entero positivo) 
x=0,1,2,... p, 0<px<l 
Coeficiente Curtosis 
Media Varianza de asimetría relativa 
ka - p) k(l — p) 2-p (p? — 6p + 6) 
y 2 1/2 3+ AL, 
Pp P [kl — p) k(l — p) 


D e a A A A A a aa A AA 
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TABLA 4.9 Distribución del número de anotaciones de seis puntos por equipo y por juego 
en el fútbol colegial, 1967 


Número Número 

Número de de veces Frecuencia Probabilidad esperado de 
anotaciones observadas relativa teórica ocurrencias 

0 272 0.1174 0.1205 . 279 

l 485 0.2094 0.2117 490 

2 537 0.2319 0.2197 509 

3 407 0.1757 0.1754 406 

4 258 0.1114 0.1190 276 

5 157 0.0678 0.0722 167 

6 101 0.0436 0.0404 94 

7 57 0.0246 0.0212 49 

8 23 0.0099 0.0106 25 

9 8 0.0035 0.0051 12 

10 5 0.0022 0.0023 $ 

l1+ 6 0.0026 0.0019 4 

Totales 2316 1.0000 1.0000 2316 


El método con que se calculan estos parámetros* es la suposición de que las esti- 
maciones de E(X) y Var(X) son iguales a la media X y la varianza s?, muestral, mis- 
mas que tienen un valor de 2.58 y 3.79 respectivamente. De acuerdo con lo anterior, 
la estimación de p resulta ser 0.6807 y la de k, 5.5012. Puesto que esta última no es un 
entero, se emplea la función de probabilidad dada por (4.35) para determinar las 
probabilidades teóricas. 

La diferencia aparente entre las distribuciones del número de anotaciones por 
equipo entre la NFL y el fútbol colegial se puede explicar en gran parte por la gran 
variabilidad que existe en la calidad de los oponentes en el fútbol colegial cuando 
éste se compara con la NFL. Como resultado, se espera que la frecuencia con la que se 
anotan seis puntos en el fútbol colegial sea más una función del oponente de lo que 
es en la NFL. De esta manera es como se sugiere la distribución binomial negativa. 

Mediante un empleo directo de la definición, la función generadora de momen- 
tos de la distribución binomial negativa se obtiene de la siguiente manera: 


Ele'*) E 2 E TAE i '} pa _ py 
5$ 1)! 
x=0 


a ieme 


k(k + 1) 


J Pia- pe +, 


pt + kpi — pje'] + 


* Véase el capitulo ocho, en particular la sección 8.3.2 para la estimación de parámetros. 
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ren t -k 
pero ésta es la expansión binomial de |: = =] ; por lo tanto, la función 


p p 
generadora de momentos está dada por: 


k 


a POESIA 
mal) = o eT (4.43) 


Con las distribuciones binomial, de Poisson, binomial negativa e hipergeométri- 
ca, se ha hecho un intento para proporcionar al lector distribuciones discretas de 
probabilidad que han demostrado ser modelos adecuados para muchos fenómenos 
interesantes y útiles de manera práctica. A pesar de que estas distribuciones son simi- 
lares entre sí, cada una de ellas posee caracteristicas distintas que brindan al usuario 
la información necesaria para una selección apropiada. También debe notarse que si 
un fenómeno no presenta todas las propiedades de una distribución determinada es 
suficiente para excluirla como modelo de probabilidad adecuado para ese fenómeno 
aleatorio. 

Las distribuciones binomial, de Poisson y binomial negativa involucran ensayos 
de Bernoulli en el muestreo que se lleva a cabo con reemplazo. En la distribución bi- 
nomial el muestreo se lleva a cabo con un número fijo de ensayos que tienen una 
probabilidad de éxito o fracaso constante. En la distribución de Poisson el número 
de ensayos es de tal manera infinito que la ocurrencia o no de un evento es constante 
en el tiempo y en el espacio. En la distribución binomial negativa, el muestreo se 
continúa hasta observar un determinado número de éxitos y el número de ensayos 
puede ser infinito. Por lo tanto, esta distribución es una alternativa factible de la de 
Poisson cuando la frecuencia de ocurrencia no es constante en el tiempo y el espacio. 
En la distribución hipergeométrica los ensayos no son independientes puesto que el 
muestreo se lleva a cabo sin reemplazo. No sólo el tamaño de la muestra es fijo, sino 
que se supone que la población es finita y, muchas veces, relativamente pequeña. 
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Ejercicios 


4.1. 


4.2. 


4.3. 


4.4. 


4.5. 


4.6. 


4.7. 


4.8. 


4.9. 


Sea X una variable aleatoria con distribución binomial y parámetros n y p. Mediante la 
función de probabilidad binomial, verificar que p(n — x; n, 1 — p) = p(x; n, p). 


En una distribución binomial, sea X el número de éxitos obtenidos en diez ensayos don- 
de la probabilidad de éxito en cada uno es de 0.8. Con el resultado del problema ante- 
rior, demostrar que la probabilidad de lograr de manera exacta seis éxitos es igual a la 
probabilidad de tener cuatro fracasos. 


Mediante el empleo de la función de probabilidad binomial, verificar la siguiente fórmu- 
la de recursión: 


(n — x)p 


Q+ Da- p) p(x; n, p). 


p(x + l; n, p) = 
Sea X una variable aleatoria con distribución binomial y parámetros n = 8 y p = 0.4. 
Emplear la fórmula de recursión del problema anterior para obtener las probabilidades 
puntuales de los valores de X. Hacer una gráfica de la función de probabilidad. 


Sea X una variable aleatoria distribuida binomialmente con n = 10 y p = 0.5. 


a). Determinar las probabilidades de que X se encuentre dentro de una desviación están- 
* dar de la media y a dos desviaciones estándares de la media. 
b) ¿Cómo cambiarían las respuestas de a) sin = 15 y p = 0.4? 


Supóngase que la probabilidad de tener una unidad defectuosa en una línea de ensamble 
es de 0.05. Si el número de unidades terminadas constituye un conjunto de ensayos inde- 
pendientes: 


a) ¿Cuál es la probabilidad de que entre 20 unidades dos se encuentren defectuosas? 

b) ¿Cuál es la probabilidad de que entre 20 unidades, dos como límite se encuentren de- 
fectuosas? 

c) ¿Cuál es la probabilidad de que por lo menos una se encuentre defectuosa? 


En una fábrica de circuitos electrónicos, se afirma que la proporción de unidades defec- 
tuosas de cierto componente que ésta produce, es del 5%. Un buen comprador de estos 
componentes revisa 15 unidades seleccionadas al azar y encuentra cuatro defectuosas. Si 
la compañía se encuentra en lo correcto y prevalecen las suposiciones para que la distri- 
bución binomial sea el modelo de probabilidad adecuado para esta situación, ¿cuál es 
la probabilidad de este hecho? Con base en el resultado anterior ¿puede concluirse que la 
compañía está equivocada? 


La probabilidad de que un satélite, después de colocarlo en Órbita, funcione de manera 
adecuada es de 0.9. Supóngase que cinco de éstos se colocan en órbita y Operan de ma- 
nera independiente: 


a) ¿Cuál es la probabilidad de que, por lo menos, el 80% funcione adecuadamente? 
b) Responder aa)sin = 10 

c) Responder a a) sin = 20 

d) ¿Son inesperados estos resultados? ¿Por qué? 


Con base en encuestas al consumidor se sabe que la preferencia de éste con respecto a 
dos marcas, A y B, de un producto dado, se encuentra muy pareja. Si la opción de 


| 


4.10. 
. se aprueba contestando correctamente por lo menos nueve preguntas. Si se lanza una 


4.12. 


4.13. 


4.14. 


4.15. 


4.16. 


4.17. 


4.18. 


4.19. 
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compra entre estas marcas es independiente, ¿cuál es la probabilidad de que entre 25 
personas seleccionadas al azar, no más de diez tengan preferencia por la marca A? 


Supóngase que un examen contiene 15 preguntas del tipo falso o verdadero. El examen 


moneda para decidir el valor de verdad de cada pregunta, ¿cuál es la probabilidad de 
aprobar el examen? N 


. Un vendedor de seguros sabe que la oportunidad de vender una póliza es mayor mientras 


más contactos realice con clientes potenciales. Si la probabilidad de que una persona 
compre una póliza de seguro después de la visita, es constante e igual a 0.25, y si el con- 
junto de visitas constituye un conjunto independiente de ensayos, ¿cuántos comprado- 
res potenciales debe visitar el vendedor para que la probabilidad de vender por lo menos 
una póliza sea de 0.80? 


El gerente de un restaurante que sólo da servicio mediante reservación sabe, por expe- 
riencia, que el 15% de las personas que reservan una mesa no asistirán. Si el restaurante 
acepta 25 reservaciones pero sólo dispone de 20 mesas, ¿cual es la probabilidad de que a 
todas las personas que asistar. al restaurante se les asigne una mesa? 


Mediante la probabilidad de Poisson, demostrar la siguiente fórmula de recursión: 


p(x + 134) = p; A). 


À 
(œx +1) 


Sea X una variable aleatoria de Poisson con parámetro A = 2. Emplear la fórmula del 
problema anterior para determinar las probabilidades puntuales de X = 0, 1, 2, 3, 4, 5, 
6, 7 y 8, y hágase una gráfica de la función de probabilidad. 


Para un volumen fijo, el número de células sanguíneas rojas es una variable aleatoria 
que se presenta con una frecuencia constante. Si el número promedio para un volumen 
dado es de nueve células para personas normales, determinar la probabilidad de que el 
número de células rojas para una persona se encuentra dentro de una desviación están- 
dar del valor promedio y a dos desviaciones estándar del promedio. 


El número de clientes que llega a un banco es una variable aleatoria de Poisson. Si el nú- 
mero promedio es de 120 por hora, ¿cuál es la probabilidad de que en un minuto lleguen 
por lo menos tres clientes? ¿Puede esperarse que la frecuencia de llegada de los clientes 
al banco sea constante en un día cualquiera? 


Supóngase que en un cruce transitado ocurren de manera aleatoria e independiente dos 
accidentes por semana. Determinar la probabilidad de que ocurra un accidente en una 
semana y de que ocurran tres, en la semana siguiente. 


Sea X una variable aleatoria binomial. Para n = 20, calcular las probabilidades pun- 
tuales binomiales y compararlas con las correspondientes probabilidades de Poisson 
para p = 0.5, 0.3, 0.1 y 0.01. 


Una compañía compra cantidades muy grandes de componentes electrónicos. La deci- 
sión para aceptar o rechazar un lote de componentes se toma con base en una muestra 
aleatoria de 100 unidades. Si el lote se rechaza al encontrar tres o más unidades defec- 
tuosas en la muestra, ¿cuál es la probabilidad de rechazar un lote si éste contiene un 1% 
de componentes defectuosos? ¿Cuál es la probabilidad de rechazar un lote que contenga 
un 8% de unidades defectuosas? 
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4.20. 


4.21. 


4.22. 


4.23. 


4.24. 


4.25. 


4.26. 


4.27. 


El número de componentes que fallan antes de cumplir 100 horas de operación es una 
variable aleatoria de Poisson. Si el número promedio de éstas es ocho: 


a) ¿Cuál es la probabilidad de que falle un componente en 25 horas? 
b) ¿Cuál es la probabilidad de que fallen no más de dos componentes en 50 horas? 
c) ¿Cuál es la probabilidad de que fallen por lo menos diez en 125 horas? 


Mediante estudios recientes se ha determinado que la probabilidad de morir por causa 
de cierta vacuna contra la gripe es de 0.00002. Si se administra la vacuna a 100 mil perso- 
nas y se supone que éstas constituyen un conjunto independiente de ensayos, ¿cuál es la 
probabilidad de que mueran no más de dos personas a causa de la vacuna? 


Un fabricante asegura a una compañía que el porcentaje de unidades defectuosas es de 
sólo dos. La compañía revisa 50 unidades seleccionadas aleatoriamente y encuentra cin- 
co defectuosas. ¿Qué tan probable es este resultado si el porcentaje de unidades defec- 
tuosas es el que el fabricante asegura? 


El número de accidentes graves en una pla..ta dustrial es de diez por año, de manera 
tal que el gerente instituye un plan que considera efectivo para reducir el número de ac- 
cidentes en la planta. Un año después de ponerlo en marcha, sólo han ocurrido cuatro 
accidentes. ¿Qué probabilidad hay de cuatro o menos accidentes por año, si la frecuen- 
cia promedio aún es diez? Después de lo anterior, ¿puede concluirse que, luego de un 
año, el número de accidentes promedio ha disminuido? 


El Departamento de Protección del Ambiente ha adquirido 40 instrumentos de preci- 
sión para medir la contaminación del aire en distintas localidades. Se seleccionan aleato- 
riamente ocho instrumentos y se someten a una prueba para encontrar defectos. Si 
cuatro de los 40 instrumentos se encuentran defectuosos, ¿cuál es la probabilidad de que 
la muestra contenga no más de un instrumento defectuoso? 


Se sospecha que por causa de un error humano se han incluido en un embarque de 50-uni- 
dades, dos (o más) defectuosas. El fabricante admite el error y envía al cliente sólo 48 
unidades. Antes de recibir el embarque, el cliente selecciona aleatoriamente cinco uni- 
dades y encuentra una defectuosa. ¿Debe reclamar una indemnización al fabricante? 


Los jurados para una corte federal de distrito se seleccionan de manera aleatoria entre 
la lista de votantes del distrito. En un determinado mes se selecciona una lista de 25 can- 
didatos. Ésta contiene los nombres de 20 hombres y cinco mujeres. 


a) Si la lista de votantes se encuentra igualmente dividida por sexo. ¿cuál es la probabili- 
dad de tener una lista que contenga a 20 hombres y cinco mujeres? 

b) Supóngase que de esta lista se elige un jurado de doce personas, de las cuales sólo 
una es mujer. ¿Cual es la probabilidad de este hecho, si los miembros del jurado se 
seleccionan de manera aleatoria? 

c) Si el lector fuera el abogado de la defensa, ¿que podría argumentar mediante el 
empleo de las respuestas de las partes a y b? 


Una compañía recibe un lote de 1 000 unidades. Para aceptarlo se seleccionan diez uni- 
dades de manera aleatoria, y se inspeccionan. Si ninguna se encuentra defectuosa, el 
lote se acepta; de otro modo, se rechaza. Si el lote contiene un 5% de unidades defec- 
tuosas: 


a) Determinar la probabilidad de aceptarlo mediante el empleo de la distribución hiper- 
geométrica. 


| 
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b) Aproximar la respuesta de la parte a mediante el empleo de la distribución binomial. 
c) Aproximar la respuesta de la parte b mediante el empleo de la distribución de Pois- 
son. 


4.28. En el ejercicio anterior, ¿cómo cambiarían las respuestas de las partes a, b y csi el tama- 
ño del lote fuera de 40 unidades? 


4.29. Considérese las funciones de probabilidad binomial y binomial negativa dadas por las 
expresiones 4.1 y 4,34, respectivamente. Demostrar que: 


k 
Pxglx; k, p) = P Pelk; x + k, p). 


4.30. Sea X una variable aleatoria binomial negativa con parámetros k = 3 y p = 0.4. 
Emplee el resultado del problema anterior para calcular las probabilidades puntuales 
para los siguientes valores de X: 0, 1, 2, 3, 4 y 5. 


4.31. Greenwood y Yule* dieron a conocer el número de accidentes ocurridos entre 414 ope- 
radores de maquinaria, en un periodo de tres meses consecutivos. En la tabla 4.10 la pri- 
mera columna indica el número de accidentes sufridos por un mismo operador, y la 
segunda indica la frecuencia relativa para aquellos que habían sufrido la cantidad de ac- 
cidentes indicada en el lapso de tres meses. 


TABLA 4.10 


x Frecuencia 
relativa 


0.715 
0.179 
0.063 
0.019 


A AE A OO 
o 
© 
© 


Con el procedimiento del ejemplo 4.10, comparar las frecuencias relativas observadas 
con las correspondientes probabilidades si el número de accidentes es una variable alea- 
toria binomial negativa. 


4.32. Un contador recientemente graduado pretende realizar el examen CPA. Si el número de 
veces que se hace el examen constituye un conjunto de eventos independientes con una 
probabilidad de aprobar igual a 0.6, ¿cuál es la probabilidad de que no se necesiten más 
de cuatro intentos para aprobar el examen? ¿Son válidas las suposiciones de independen- 
cia y probabilidad constante? 


* Encuesta acerca de la distribución representativa de la frecuencia de múltiples eventos, con especial re- 
ferencia a la ocurrencia de múltiples ataques de enfermedades o accidentes repetidos, J. of the Royal Sta- 
tistical Soc. 83 (1920), 255. 
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4.33. En un departamento de control de calidad se inspeccionan las unidades terminadas que 


provienen de una línea de ensamble. Se piensa que la proporción de unidades defec- 
tuosas es de 0.05. 


a) ¿Cuál es la probabilidad de que la vigésima unidad inspeccionada sea la segunda que 
se encuenre defectuosa? 

b) Supóngase que la décimo quinta unidad inspeccionada es la segunda que se encuen- 
tra defectuosa. ¿Cual es la probabilidad de este hecho bajo condiciones determina- 
das? 


4.34. De las distribuciones binomial, Poisson, hipergeométrica y binomial negativa, ¿cuáles 


no consideraría si alguien le dijera, de una distribución en particular que: 


a) ¿La media es igual a la varianza? 

b) ¿La media es más grande que la varianza? 

c) ¿La media es menor que la varianza? 

d) El tercer momento, alrededor de la media, ¿es negativo? 

e) ¿El fenómeno aleatorio de interés constituye un grupo de ensayos independientes? 
J) ¿El muestreo se lleva a cabo con reemplazo? 

g) ¿El muestreo se lleva a cabo sin reemplazo? 


APÉNDICE 


Deducción de la función de probabilidad de Poisson 


Sea p(x; t) la probabilidad de tener, de manera exacta, X ocurrencias en un interva- 
lo £, y supóngase lo siguiente: 


l. 
2. 


En este intervalo, los eventos ocurren de manera independiente. 

La probabilidad de una sola ocurrencia, en un intervalo muy pequeño dt es vdt, 
en donde v es la frecuencia constante de ocurrencia y (» > 0). 

El intervalo df es tan pequeño, que la probabilidad de tener más de una ocurren- 
cia en dt es despreciable. 


El evento que en el tiempo t + dt ha ocurrido exactamente x veces, puede llevarse a 
cabo de dos maneras diferentes y excluyentes: 


l. 


Existen x ocurrencia por tiempo /, con probabilidad p(x; t) y ninguna endt, con 
probabilidad (1 — vdt). Dada la suposición de independencia, la probabilidad 
conjunta es p(x; 00 — vdt). 


. Existen x — 1 ocurrencias por tiempo f, con probabilidad p(x — 1; t) y una du- 


rante dt, con probabilidad vdt. Otra vez, dada la suposición de independencia, la 
probabilidad conjunta es: p(x — 1; twdt. 


Esto es: 


px; t + di) = p(x; 00 — vdt) + plx — 1; t)ẹwdt. 
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Después de multiplicar, transportar p(x; t) al primer miembro, y dividir por dt, se 
tiene: l 


ka p(x; t) 


pss + di) = vipix — 1; 1) — px N). 


dt 


Si se toma el límite conforme dt —> 0, por definición se tiene: 


dp(x; 1) = 1) = v[p(x — 1; 1) — p(x; Ð), (4.44) 


que es una ecuación diferencial lineal con respecto a f y una ecuación de diferencias 
finitas de primer orden, con respecto a x. Six = 0, la ecuación (4.44) se convierte en 


d o: 
POD =p 150 — pO; D] 


= —vp(0; t), 


dado que p(— !;t) tiene que ser cero. La solución general de la ecuación diferencial 
lineal 


dp(0; t) _ 


di -v p(0; t) 


se obtiene mediante separación de variables e integración en ambos miembros, lo 
que da como resultado: 


In[p(0; )} = In(c) — vt, 


p(0; t) = ce” 


Dado que la probabilidad de tener cero ocurrencias en un intervalo £ = 0, debe ser 1, 
c=1,y 


p(0:1)= e". 


Six = 1, (4.44) se convierte en 


dp(l;) ada doo 
ÓN v[p(0; 1) — p(l; 0), 
o 
dp(l; t) 2 
tido o 4.45 
di + vp(l; t) = ve ( ) 


La ecuación (4.45) es una ecuación diferencial no homogénea con la condición ini- 
cial de que p(l; 0) = 0 dado que la probabilidad de tener exactamente una 
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ocurrencia en £ = 0 debe ser cero. La solución de (4.45) es f 


p(l; D) = (vpe 


E ARANA nl 


De manera similar, para x = 2 y p(2; 0) = 0, (4.44) se reduce a 
>  dp(2;1) a 
Po E T + . = pi 
di vp(2; t) = vte”, 
cuya solución es 
Ñ (ue ” 
pk; t) = ai 


Al continuar este proceso puede deducirse que la probabilidad de tener exactamente 
x ocurrencias en ż es 
(v Ly e vt 


p(x; t) = m x=0,1,2,... (4.46) 


siempre que p(x; 0) = 0. Si se sustituye A = vt en (4.46), el resultado es la fun- 
ción de probabilidad de Poisson. 


APÉNDICE 
Demostración del teorema 4.1 


Al multiplicar numerador y denominador por n“ y sustituir n!/(n — x)! = n(n — 
Dín — 2) --* (n — x + l), la función de probabilidad binomial es: 


=i] Lja E 
px; n, p) = EA D E E i = py * 
rx! 
n(n — IXan — 2) (n= x+ DA ia 
o 
n x! 
l 2 EAS aae 
a 
e a, 
n n n `j A i 7 
= o Sa- pr (44m) 
Dado que: 


d- pr = 10 -p Py” =i p P>, 
y por definición: 


lim (1 + 2)" = e, 
¿—0 


Apenuice 
mediante el cambio de variable z = —p, se tiene 
lim [A ~ p I> = e>. 
p—>0 


Además, 


Al sustituir en (4.47), 


enn 


lim p(x; n, p) = 


p—0 


CAPÍTULO CINCO 


Algunas distribuciones 
continuas de probabilidad 


5.1 Introducción 


Estas distribuciones se emplearon en el estudio de fenómenos aleatorios en discipli- 
nas como la ingeniería y las ciencias aplicadas o bien los negocios y la economía. En 
este capítulo se desarrollará un método para determinar la distribución de probabili- 
dad de una función de variable aleatoria y se introducirán los conceptos básicos para 
la generación, por computadora, de números aleatorios. 

De manera específica se estudiarán los siguientes modelos de probabilidad: nor- 
mal, uniforme, beta, gama, de Weibull y exponencial negativa. La forma de abordar 
los temas será la misma que se empleó en el capítulo cuatro. Se discutirán las pro- 
piedades de cada modelo y se indicarán áreas de aplicación específica, con lo que se 
pretende proporcionar al lector una idea y comprensión suficiente para utilizar los 
modelos de manera apropiada. 


5.2 La distribución normal 


La distribución normal o Gausiana es indudablemente la más importante y la de ma- 
yor uso de todas las distribuciones continuas de probabilidad. Es la piedra angular 
en la aplicación de la inferencia estadística en el análisis de datos, puesto que las 
distribuciones de muchas estadísticas muestrales tienden hacia la distribución nor- 
mal conforme crece el tamaño de la muestra. La apariencia gráfica de la distribución 
normal es una curva simétrica con forma de campana, que se extiende sin límite 
tanto en la dirección positiva como en la negativa. Un gran número de estudios indi- 
ca que la distribución normal proporciona una adecuada representación, por lo me- 
nos en una primera aproximación, de las distribuciones de una gran cantidad de va- 
riables fisicas. Algunos ejemplos específicos incluyen datos meteorológicos tales 
como la temperatura y la precipitación pruvial, mediciones efectuadas en organis- 
mos vivos, calificaciones en pruebas de actitud, mediciones fisicas de partes manu- 
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facturadas, errores de instrumentación y otras desviaciones de las normas estableci- 
das, etc. Sin embargo, debe tenerse mucho cuidado al suponer para una situación 
dada un modelo de probabilidad normal sin previa comprobación. Si bien es cierto 
que la distribución normal es la que tiene un mayor uso, es también de la que más se 
abusa. Quizá esto se deba a la mala interpretación de la palabra ““normal””, especial- 
mente si se aplica su significado literal de *“*patrón o estándar aceptado””. Suponer de 
manera errónea una distribución normal puede llevar a errores muy serios. Es po- 
sible que una distribución normal proporcione de manera razonable una buena 
aproximación alrededor de la media de una variable aleatoria; sin embargo, puede 
resultar para valores extremos que se encuentren en cualquier dirección. Por 
ejemplo, si se diseña cierto material para resistir una cantidad dada de presión, que 
se supone se encuentra distribuida normalmente alrededor de un valor promedio, y 
el diseño se hace con base en esta suposición, el material puede verse seriamente da- 
ñado al aplicársele una presión muy elevada. 

En la definición 5.1 se proporciona la función de densidad de probabilidad de la 
distribución normal, la cual fue descubierta por DeMoivre en 1733 como una forma 
límite de la función de probabilidad binomial; después la estudió Laplace. También 
se conoce como distribución Gausiana porque Gauss la citó en un artículo que 
publicó en 1809, Durante el siglo XIX se empleó de manera extensa por científicos 
que habían notado que los errores, al llevar a cabo mediciones físicas, frecuentemen- 
te seguían un patrón que sugería la distribución normal. 


Definición 5.1 Se dice que una variable aleatoria X se encuentra normalmente 
distribuida si su función de densidad de probabilidad está dada por 


1 fx — uy =-AXIY<x 
(x; y = “=== =- f j 
T, z| e ii ayas EY 


Los parámetros de la distribución normal son u y o: y además determinan de 
manera completa la función de densidad de probabilidad. Como se verá posterior- 
mente, estos parámetros son la media y la desviación estándar de X, respectivamen- 
te. En la figura 5.1 se proporcionan varias gráficas de (5.1) para distintos valores de 
pH ad fijo y viceversa. 

Es obvio que para cualquier par de valores u y a, (5.1) es simétrica y tiene forma 
de campana. Si se obtienen las dos primeras derivadas de f(x: u, o) con respecto a 
x y se igualan a cero, se tiene que el valor máximo de f(x; u, 0) ocurre cuando x = 
u, y los valores x = u + g son las abcisas de los dos puntos de inflexión de la 
curva. En un apéndice al final de este capítulo se proporciona la demostración de 
que (5.1) es una función de densidad de probabilidad. 

La media de una variable aleatoria distribuida normalmente se encuentra defini- 
da por: 


: l Í ud 
EX) = —== T xexpl|—(x — uy /20 dx. (5.2) 


Va o 
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f(x) 
0.3 
0.2 


0.1 


FIGURA 5.1 Gráficas de la función de densidad normal para diferentes valores de 4 y o 


Se pretende demostrar que E(X) = u. Supóngase que a (5.2) se suma y se resta 


H 
V2r o 
La identidad se mantiene, pero después de reacomodar términos se tiene 


l s » > 
E(X) = ==]. (x — pjexp[ —(x — uy/20 ]dx 


Vr o 
L 
V2r o 
z j 
V27 0 


¡E exp[ -(x — u} /20°]dx. 


| 
! 
| 


+ 


f expl- (x — uy /20]dx 


-z 


| „(x ~ wexpl- (x — uY /207 ldx + u, (5.3) 
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dado que el valor de la segunda integral es uno. Al efectuar un cambio de variable de 
integración en (5.3) de manera tal que y = (x — p)/0,x = ay + u, ydx= © 
dy, se tiene: l 


o x= 
£ Ex) = | expl- y?/2)dy + 
li? p( i i H 


= -—= expl- y*/2) +pu=p (5.4) 
V2r 

El lector recordará de sus cursos de cálculo que la última integral es cero porque 
el integrando es una función impar* y la integración se lleva a cabo sobre un interva- 
lo simérico alrededor de cero. 

Una distribución normal es simétrica alrededor de su media 4. Si el valor máxi- 
mo de la función de den...dz * de probabilidad normal ocurre cuando x = p, u esla 
media, la mediana y la moda de cualquier variable aleatoria distribuida normalmente. 

Para encontrar los demás momentos, se determinará la función generadora de 
momentos. Por definición: 


— 


l 
V2r o 
l 


Vr o 


Se completa el cuadrado en el interior del paréntesis rectangular y se tiene: 


My-„(t) = Ele *- 1] = f. exp[t(x — p)lexpl —(x — p)/207 ldx 


x 1 , 
Í, opl Fa [K(x — py — 20? 1H(x — miar 


(x — py — 20°t(x — u) = (x — py? — 20°t(x — u) + o't — o't? 


= (xp - ay — ot 


mx- kt) = | explo? 1?/2)exp[—[x — (u + 0?01/20?* dx 
V2r oJ- 


E a Í expí—[x — (u + 0701/20? dx 
mo -> 


exp(o?t?/2), (5.5) 


dado que el integrando junto con el factor 1/V. 27 o es una función de densidad de 
probabilidad normal con parámetros u + 0 1 y o. 
Al desarrollar (5.5) en serie de potencias se tiene: 


(a NN AN 
2 4-21 8&3! 164! 


* Se dice que una función f(x) es impar si f(—x) = —f(x). Entonces f^. fíxjdx = 0. Se dice que una 
función f(x) es par si f(—x) = f(x). Entonces $”. fíxidx = 2 fi fix)dx. 


mi db = 1 + 
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Cuando las potencias impares de f no se encuentran presentes, todos los momentos 
centrales de X de orden impar son cero, de esta forma se asegura la simetría de la 
curva. 

La segunda derivada de myx-,.(t) evaluada en £ = 0 es la varianza y está dada 
por: 


l Pma- (1) 1210*  301%0* 
Var (X) = q > de a ME a 


de esta manera la desviación estándar es o. De manera similar, la cuarta derivada de 
mx- £t) evaluada en £ = 0 es el cuarto momento central, el cual es: 


_ O) 


36010" 
H4 = dr = 30? + 


lren 8-3! 


= 30* (S.7) 
0 


1 


De acuerdo con lo anterior, para cualquier distribución normal el coeficiente de 
asimetría es a(X) = 0, mientras que la curtosis relativa es a (X) = 30*%/0* = 3. 
Para momentos alrededor del cero, puede determinarse la función generadora de 
momentos de X mediante el empleo directo de la función generadora de momentos 
centrales (o viceversa). Dado que 


mx- ki) = Ele * 7] 


exp( — ui) Elexp(1X)] 
exp(— ui)mx(0), 


para una distribución normal 


exp(— ut)my(t) = explo?1?/2) 


24 Z 
m= exp( ur Je A ) (5.8) 


La probabilidad de que una variable aleatoria normalmente distribuida X sea 
menor o igual a un valor específico, x está dada por la función de distribución acu- 
mulativa 


P(X = x) = F(x; p, 0) = 


1 i SASS 
n Í i expl- (t — )/207 ldt. (5.9) 
Tao” 


La integral en (5.9) no puede evaluarse en forma cerrada; sin embargo, se puede ta- 
bular F(x; u, a) como una función de 4 y d, lo que necesitaría una tabla para 
cada par de valores. Como existe un número infinito de valores de u y o, esta tarea 
es virtualmente imposible. Afortunadamente, lo anterior puede simplificarse me- 
diante el empleo de la siguiente transformación: sea Z una variable aleatoria defini- 
da por la siguiente relación: 


AR ll A A a 


As 


II ME nr > ~ 
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Z = (X - Jo, (5.10) 


en donde u y © son la media y la desviación estándar de X, respectivamente. De 
acuerdo con lo anterior, Z* es una variable aleatoria estandarizada con media cero y 
desviación estándar uno, de acuerdo con lo que se discutió en el capítulo tres. 

Si la transformación (5.10) se sustituye en (5.9), entonces: 


=x 


(x—4)/a 
P(X = x) = PIZ = (x — p)/0] = VT Í exp(— 2'/2Xodz) 


eN, 


1 a-p) na 


a exp(-2/2dz. (SM) 


El integrando en (5.11) junto con el factor 1/4/27 es la función de densidad de 
probabilidad de la variable aleatoria normal estandarizada Z. Esto es, si X se en- 
cuentra normalmente distribuida con media u y desviación estándar o, entonces 
Z = (X — u)/o también se encuentra normalmente distribuida con media cero y 
desviación estándar uno. Así, para z = (x — u)/o, P(X = x) = P(Z=2) y 


Fx(x; y, 0) = Fz(z; 0, 1), (5.12) 


donde Fz(z; 0, 1) es la función de distribución acumulativa de la función de pro- 
babilidad normal estandarizada. En la figura 5.2 se proporciona la gráfica de la 
función de distribución para la variable aleatoria normal estandarizada. 


* Se empleará Z para denotar una variable aleatoria normal estandarizada. 


F(z) 


0.5 


FIGURA 5.2 Función de distribución acumulativa de la normal! estándar 
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La función F(z; 0, 1) se encuentra tabulada, de manera extensa, y se da en la 
tabla D del apéndice. Para cualquier valor específico de z, el correspondiente valor 
en la tabla es la probabilidad de que la variable aleatoria normal estándar Z sea me- 
nor o igual a z; esto es, 


P(Z = z) = Fx(2;0, 1) = Pa exp(— 1/2)dt. (5.13) 
vV2r =% ; 


En este momento es conveniente introducir la notación X ~ N(u, o) para denotar 
que la variable X se encuentra distribuida normalmente con media y. y desviación estándar 
a. En lo que sigue se examinará cómo puede determinarse la probabilidad de que un 
valor de X se encuentre entre a y b, si X ~ N(u, o). Por definición: 


b 
P(a < X < b) = “E expl- (x — u)’/20°]dx, 
V2r o Ja 
pero, mediante el empleo de (5.3) se tiene: 


Pía = X = b) = P(E < z = 2) 
(o o 


1 (b-w/o0 
= Van / a expl- 2/2)dz 
Tona ado 


= r2; ) = FL: 1) (5.14) 


0 


En otras palabras, la probabilidad de que X esté entre a y b es, de manera exacta, la 

misma probabilidad de que Z se encuentre entre (a — u)/a y(b — u)/o, endon- 

de Z es N(0, 1). En la figura 5.3 se ilustra esta correspondencia de probabilidades. 
Se ilustrará el empleo de la tabla D mediante los siguientes ejemplos. 


Ejemplo 5.1 Si Xes N(u,0), ¿cuáles son las probabilidades de que el valor de X 
se encuentre a una, dos y tres veces la desviación estándar de la media? 


== T + an 
Pu- osx pro = EL sI) 
o o 
= Pl-l<Z<l) 
= F;(1;0, 1) — F(—-1;0, 1) 


1) 


0.6826. 
Piu- 20 X= pu + 20) = P(-2=Z=<2) 

= F/(Q;0, 1) — F,/(-2;0, 1) = 0.9544. 
P(n — 30 £ X < u + 30) = P(-3=<Z<3) 

= F43; 0, 1) — F;(—3; 0, 1) = 0.9974. 
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f(x) 


P(a<X<b). 


FIGURA 5.3 Correspondencia entre las probabilidades de X y de Z 


Así, para cualquier variable aleatoria normal las probabilidades ““una sigma”, ““dos 
sigma” y “tres sigma”” son 0.6826, 0.9544 y 0.9974 respectivamente. Este resultado 
indica que para la distribución normal existe una gran concentración de valores alre- 
dedor de la media. 


Ejemplo 5.2 Sea X una variable aleatoria que representa la inteligencia medida por 
medio de pruebas CI. Si X es N(100, 10), obtener las probabilidades de que X sea 
mayor que 100, menor que 85, a lo más 112, por lo menos 108, más grande que 90, y 
entre 95 y 120. 

Debe notarse que al resolver problemas de esta clase, el lector puede encontrar de 
gran ayuda graficar las correspondientes áreas bajo las curvas de densidad normal, 
como se ilustra en la figura 5.3. Dado que la distribución de probabilidad de X es si- 
métrica alrededor de su media, la probabilidad de que X sea mayor que este valor es, 
por definición, 0.5. Las otras probabilidades se obtienen de la siguiente forma: 


85 — 100 
p(z < sn) = P(Z< -1.5) 


P(X < 85) 10 


FX —1.5; 0, 1) = 0.0668. 


P(X = 112) = P(Z = 1.2) = F,(1.2:0, 1) = 0.8849. 
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P(X > 108) = P(Z = 0.8) = 1 — F,(0.8; 0, 1) = 0.2119. 
P(X > 9%) = P(Z > -—1) = 1 - F¿(-1;0, 1) = 0.8413. 
P(9S =< X < 120) = P(-0.5<Z=<2) = F¿(2;0, 1) — F¿(-0.5; 0, 1) = 0.6687. 


Ejemplo 5.3 Supóngase que la demanda mensual de cierto producto se encuentra 
aproximada por una variable aleatoria normal con media de 200 y desviación están- 
dar igual a 40 unidades. ¿Qué tan grande debe ser el inventario disponible a principio 
de un mes para que la probabilidad de que la existencia se agote no sea mayor de 
0.05? 


Sea X la demanda mensual, entonces X es N(200, 40). Lo que se desea obtener 
es el valor del cuantil x, ys para el nivel de inventario a principio del mes, de manera 
tal que la probabilidad de que la demanda exceda a xy os (existencias agotada) no sea 
mayor de 0.05. Esto es: 


P(X > x095) = 0.05 


P(X = Xo95) = 0.95. 


De lo anterior se sigue que: 
P[Z = (xo09s — 200)/40] = 0.95 


P(Z = Zos) = FzlZos9s; 0, 1) = 0.95, 


donde Zoos = (Xo.95 — 200)/40 es el valor cuantil correspondiente a la variable aleato- 
ria normal estándar. Para obtener Zo os de la tabla D, primero se busca la probabili- 
dad más cercana a 0.95. Una vez que se encuentra este valor, se toman los corres- 
pondientes valores del renglón y la columna y se interpola para encontrar el valor 
deseado de Zos- Por ejemplo, Zo.95 tiene un valor aproximado de 1.645 y dado que 
Zo.9s = (Xo.95s — 200)/40, xo9s tiene un valor de 265.8. Esto significa que el inventario 
a principio de cada mes no debe ser menor de 266 unidades para que la probabilidad 
de agotar las existencias no sea mayor de 0.05. 


Ejemplo 5.4 Supóngase que el diámetro externo de cierto tipo de cojinetes se en- 
cuentra, de manera aproximada, distribuido normalmente con media igual a 3.5 cm 
y desviación estándar igual a 0.02 cm. Si el diametro de estos cojinetes no debe ser 
menor de 3.47 cm ni mayor de 3.53 cm, ¿cuál es el porcentaje de cojinetes, durante 
el proceso de su manufactura, que debe desecharse? 


Sea X el diámetro del cojinete, en donde X es N (3.5, 0.02). La probabilidad de 
que el diámetro se encuentre entre 3.47 cm y 3.53 es: 
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PG.47 = X = 3.53) = q <Z< a) 
= P-15=<Z=<1.5) * . 
` = FA1.5;0, 1) — FA(—1.5;0, 1) 
= 0.8664. `> 


Dado que el 86.64% de los cojinetes cumplen con las especificaciones determinadas, 
se deduce que 1 — 0.8664 = 0.1336, o, en otras palabras, debe desecharse el 13.36% 
de la producción. 

En el ejemplo 3.11 se determinó que para la distribución normal estándar los valo- 
res del primero y tercer cuantil son, de manera aproximada, iguales a —0.675 y 0.675 
mientras que los correspondientes a los deciles primero y noveno son alrededor de 
-1.28 y 1.28 respectivamente. De (5.10) se sigue que si X es N(u, 0), los valores de los 


cuantiles primero y tercero de X son xp25 = —0.6757 + u y xo7s = 0.6750 + p. 
De esta manera el recorrido intercuantil es xo75 — Xo2s = 1.350. De manera simi- 
lar, los valores de los deciles primero y noveno son: Xow = —1.2807 + 4 y 


Xow = 1.280 + p, y el recorrido interdecil está dado pOr xos — Xoo = 2-560. 
Del ejemplo 3.11, se puede concluir que si X ~ N(u, o), la desviación media de X es 


E|X — ul = 0.79790. (5.15) 
La tabla 5.1 contiene las propiedades básicas de la distribución normal. 


Ejemplo 5.5 La primera columna de la tabla 5.2 contiene los intervalos de respues- 
tas correctas para la prueba de matemáticas (SAT); la segunda, el correspondiente 
número de calificaciones observadas para el periodo 1979-1980, tal y como fueron 
dadas a conocer en el College Board ATP Summary Report; la tercera columna, las 
frecuencias relativas, las restantes, información con respecto a si las calificaciones 
para la prueba SAT obtenidas por los hombres estaban distribuidas normalmente 
con media 491* y desviación estándar igual a 120*. 


* Estos datos se proporcionan en el College Board ATP Summary Report, 1979-1980. 


TABLA 5.1 Propiedades básicas de la distribución normal 


Función de densidad de probabilidad Parámetros 
; l lx = uy 
fax u, 0) = += epl (4) |. y AREA 
i Vr o 2 T a P 
T, or>0 
-ILII 

Desviación Recorrido Recorrido Coeficiente Curtosis 
Media Varianza media intercuantil interdecil de asimetría relativa 


u a? 0.79790 1.350 2.560 0 3 
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TABLA 5.2 Calificaciones obtenidas en la prueba de matemáticas SAT por los estudiantes 
del tercer año de preparatoria en el ciclo 1979-1980 


Número de Intervalo 
respuestas Número de Frecuencia normal Probabilidad Número 
correctas exámenes relativa estándar del intervalo esperado 
(200-249) 3 423 0.0072 (-2.425- —2.01) 0.0146 6 981.62 
(250-299) 18 434 0.0385 (-2.01- —1.59) 0.0337 16 115.10 
(300-349) 39 913 0.0835 (—1.59- —1.18) 0.0631 30 173.98 
(350-399) 51 603 0.1079 (-1.18- —0.76) 0.1046 50 018.99 
(400-449) 61 691 0.1290 (—0.76- —0.34) 0.1433 68 525.06 ` 
(450-499) 72 186 0.1510 (—0.34-0.075) 0.1630 77 945.46 
(500-549) 72 804 0.1522 (0.075-0.49) 0.1580 75 554.49 
(550-599) 58 304 0.1219 (0.49-0.91) 0.1307 62 499.83 
(600-649) 46 910 0.0981 (0.91-1.325) 0.0888 42 463.54 
(650-699) 30 265 0.0633 (1.325-1.74) 0.0517 24 722.58 
(700-749) 16 246 0.0340 (1.74-2.16) 0.0255 12 193.92 
(750-800) 6 :14 0.0134 (2.16-2.575) 0.0104 4 973.21 


Totales 478 193 1.0000 0.9874 472 167.78 


Mientras que, de manera aparente, existe una similitud entre las frecuencias teóricas 
y las observadas, queda aún por contestar la pregunta acerca de cuándo puede rechazar- 
se o no (véase Cap. 10) la hipótesis de que las calificaciones de la prueba SAT se distri- 
buyeron normalmente con media 491 desviación estándar igual a 120. Como se men- 
cionó, siempre es importante verificar lo que ocurre en los extremos de la distribución 
observada. Por ejemplo, se sabe que para la prueba SAT es imposible obtener califica- 
ciones para los eventos X < 200 y X > 800. Sin embargo, si X ~ N(491), las corres- 
pondientes probabilidades son 120), P(X < 200) = 0.0075 y P(X > 800) = 0.005. 
El siguiente ejemplo debe ilustrar de manera más clara la falta de concordancia en 
los extremos, entre las distribuciones observadas y teórica. 


Ejemplo 5.6 El número de unidades de un cierto producto que un comerciante ven- 
de al día varía de manera aleatoria con cambios muy pequeños que se deben a la 
temporada o al día de la semana. Con base en información anterior, se cree que la de- 
manda diaria de este producto es una variable aleatoria normal con media y des- 
viación estándar iguales a 100 y 12 unidades, respectivamente. Para comprobar su 
grado de creencia, el vendedor anota la demanda diaria durante los últimos 102 días 
y la agrupa como se muestra en la tabla 5.3. Comparar las frecuencias relativas que 
se observaron con las frecuencias teóricas al suponer una distribución normal con 
media 100 y desviación estándar 12. 

Como se ilustra en la figura 5.4, las frecuencias relativas que se observan en la 
demanda diaria sugieren una curva en forma de campana. Sin embargo, la tabla 5.4 
en que se comparan las frecuencias relativas teórica y observada, muestra una 
discrepancia muy grande en los extremos a pesar de que existe una buena concordan- 
cia alrededor de la media. Suponer una distribución normal para este tipo de si- 
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TABLA 5.3 Demanda diaria de un producto 


Demanda diaria Frecuencia 

(55-64) 6 
(65-74) 4 
(75-84) 6 
(85-94) Ye 20 
(95-104) 32 
(105-114) 18 
(115-124) 6 

. (125-134) 6 
(135-144) 4 


tuación puede llevar a errores muy grandes cuando es necesario tener información 
sobre los extremos. 

Recuérdese que la distribución binomial es una forma límite de la distribución de 
Poisson cuando n es grande y p pequeño. Se desea demostrar que la distribución 
normal es una forma límite de ia binomial cuando z es grande y p no tiene un valor 
cercano a cero o a uno. El siguiente teorema, que se conoce como teorema del límite 
de DeMoivre-Laplace, asegura una aproximación adecuada mediante la distribución 
normal de las probabilidades binomiales si n es suficientemente grande. 


Teorema 5.1 Sea X una variable aleatoria binomial con media np y desviación es- 


tándar Vnp(l1 — p). La distribución de la variable aleatoria tiende a la normal 


X -np 


PS nnn (5.16) 
Vnp(l — p) 


o o 
NS w 


S 
= 


Frecuencia relativa 


5S 65 75 85 95 105 115 125 135 145 


Demanda diaria (unidades) 


A 


FIGURA 5.4 Frecuencias relativas que se observan para la demanda diaria de un producto 
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estándar conforme el número de ensayos independientes n—>=. Se proporciona un 
desarrollo de la prueba en un apéndice al final de este capítulo. 


La esencia del teorema 5.1 es que si X es una variable aleatoria binomial, para 
la que el número de ensayos independientes es suficientemente grande, se dice que 
X posee una distribución normal aproximada con media np y desviación estándar 
Vnp(l— p). De hecho, la aproximación es adecuada tanto como np > 5 cuando 
p = 1/2, o cuando n(l — p) > 5 para p > 1/2. Esto es, 


a-np _ b- np ) 


Vael- p) "Vapi = p) 


P(a sxs) = e| 


en donde Zy es N(0.1). 

La aproximación dada por (5.17) puede mejorarse si se tuma en cuenta que lo 
que se desea es aproximar probabilidades para una variable aleatoria discreta a par- 
tir del intervalo de probabilidades de una variable aleatoria continua. Por ejemplo, 
se desea determinar la probabilidad de que X tome un valor igual a x. Se sabe que 
para cualquier valor especifico x de una variable aleatoria binomial, la probabilidad 
puntual es distinta de cero. Sin embargo, si se emplea la aproximación normal dada 
por el teorema 5.1, P[Z = (x — np)/Vnp(1 — p)] = 0. En lugar de emplear la 
expresión anterior, se usará la aproximación normal para P(X = x) que determina 
la probabilidad de un intervalo de longitud uno (igual al incremento de la variable 
aleatoria binomial), de manera que el punto medio del intervalo sea igual al valor x. 
Por lo tanto, 


=ww.-12_, MD + 2) 
Val- ~ Vap =p) 


Como resultado, la expresión (5.17) puede modificarse de la siguiente forma: 


P(X; = x)= pl 


a=np-=0.5_ P=np+05 


Pla<X A | =s Zn S a) (5.18) 
e Vail =p) Vap- p) 


TABLA 5.4 Frecuencias relativas observada y teórica para la demanda diaria de un producto 


Frecuencia Intervalo normal Probabilidad 

Demanda diaria relativa estándar del intervalo 
(55-64) 0.0588 (-3.75- -2.92) 0.0017 
(65-74) 0.0392 (-2.92- —2.08) 0.0170 
(75-84) 0.0588 (- 2.08- — 1.25) 0.0868 
(85-94) 0.1961 (-1.25- — (0,42) 0.2316 
(95-104) 0.3137 (— 0.42-0.42) 0.3256 
(105-114) 0.1765 (0.42-1.25) 0.2316 
(115-124) 0.0588 (1.25-2.08) 0.0868 
(125-134) 0.0588 (2.08-2.92) 0.0170 
(135-144) 0.0392 (2.92-3.75) 0.0017 


Totales 0.9999 0.9998 
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Ejemplo 5.7 Una organización política planea llevar a cabo una encuesta para detec- 
tar la preferencia de los votantes con respecto a los candidatos 4 y B que ocuparán un 
puesto en la administración pública. Supóngase que toma una muestra aleatoria de 
mil ciudadanos. ¿Cuál es la probabilidad de que 550 o más de los votantes indiquen 
una preferencia por el candidato A si la población, con respecto a los candidatos, se 
encuentra igualmente dividida? 


ES 


Sea X la variable aleatoria que representa el número de ciudadanos que tienen 
preferencia por el candidato A. La muestra aleatoria de mil votantes puede pensarse 
como un conjunto de ensayos independientes con una probabilidad de éxito, en cada 
ensayo, igual a 0.5 (candidato A), dado que, por hipótesis, la población de votantes 
se encuentra igualmente dividida entre los candidatos. De esta forma, X es una va- 
riable aleatoria binomial con media np = 500 y desviación estándar Vnp(l — p) = 
15.81. La probabilidad de que Y = 550 se puede aproximar, de manera adecuada, 
mediz-te ^! empleo de la distribución normal dado que » es suficientemente grande: 
grande: 


P(X = 550) = PIZ, > (549.5 — 500)/15.81] 
= P(Zy = 3.13) 
= 0.0009. 


Como la probabilidad de tal hecho es muy pequeña, si p es igual a 0.5 puede con- 
cluirse que A será el ganador en la encuesta, ya que 550 o más personas indicarán una 
preferencia por él. 
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Supóngase que ocurre un evento en que una variable aleatoria toma valores de un in- 
tervalo finito, de manera que éstos se encuentran distribuidos igualmente sobre el 
intervalo. Esto es, la probabilidad de que la variable aleatoria tome un valor en cada 
subintervalo de igual longitud es la misma. Se dice entonces que la variable aleatoria 
se encuentra distribuida uniformemente sobre el intervalo. 


Definición 5.2 Se dice que una variable aleatoria X está distribuida uniformemente 
sobre el intervalo (a, b) si su función de densidad de probabilidad está dada por: 


1/(b — a) asx<b, 
fax; a, b) = (5.19) 
0 para cualquier otro valor 


La función de densidad de probabilidad de una distribución uniforme es cons- 
tante en el intervalo (a, b), como se ilustra en la figura 5.5. Por esto, tal distribución 
también se conoce como distribución “rectangular”. 
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f(x) 


FIGURA 5.5 Gráfica de la función de densidad de probabilidad uniforme 


La función de distribución acumulativa se determina de manera fácil y está dada 
por 


P(X = x) = Fx; a, b) = (b — a | dt 
0 x<a, 
= 4 (x — a)/(b — a) asxZ&b, (5.20) 
1 x>b. 


Se sigue entonces que, para cualquier subintervalo (a,, b,) interior a (a, b): 
Pía, =X<b,) a F(b,, a, b) sd Fla, a, b) 
= (b, — a,)/(b — a). (5.21) 


Este resultado ilustra que la probabilidad de que X tome valores del subintervalo 
(a,, b,) es 1/(b — a) por la longitud del subintervalo y, de esta forma, igual a la proba- 
bilidad de que X tome un valor en cualquier otro subintervalo de la misma longitud. 

La distribución uniforme proporciona una representación adecuada para redon- 
dear las diferencias que surgen al medir cantidades fisicas entre los valores observados 
y los reales. Por ejemplo, si el peso de un individuo se redondea al kilogramo 
más cercano, entonces la diferencia entre éste y el peso verdadero será algún valor 
entre—0.5 y 0.5 kg. Es común que el error de redondeo se encuentra distribuido uni- 
formemente en el intervalo (-0.5, 0.5). Otro uso de la distribución uniforme es pro- 
porcionar una aproximación clara sobre un intervalo muy pequeño cuya distribu- 
ción es distinta a la uniforme. 


Ejemplo 5.8 Con respecto al ejemplo 1.1, si se supone que las cuotas se encuentran 
distribuidas de manera uniforme en el intervalo ($81.5-$111.5), entonces la función 
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de densidad de probabilidad se determina por: 
f(x, 81.5, 111.5) = 1/30, —81.5<x=<I111.5. 


Se sigue de (5.21) que la probabilidad de que una cuota se encuentre en un subin- 
tervalo de longitud $5 (la amplitud de clase en el ejemplo 1.1) es 5/30. En la tabla 5.5 
se proporciona una comparación entre las frecuencias relativas dadas en la tabla 1.1 
y las correspondientes probabilidades teóricas, con base en la distribución uniforme. 
Como puede observarse, la concordancia entre las frecuencias teóricas y observadas 
es aparente. 

El valor esperado de una variable aleatoria distribuida de manera uniforme es 


b 


E(X) = (b — a~ f xdx 


= (a + b)/2. | (5.22) 


Para obtener los momentos superiorez de X, es más fácil trabajar con la variable 
aleatoria Y = X — [(a + b)]/2, que desplaza la media a cero, dado que E(Y) = 
E(X) — [la + b)]/2. De esta forma: 


00) = 1/0, -0/2 = y = 0/2, (5.23) 


en donde 9 = b—a. De acuerdo con lo anterior, el r-ésimo momento central de Y 
es igual al r-ésimo momento central alrededor del cero, esto es: 


0/2 
a Í y dy 


—4/2 


u (Y) = u/(Y) 


-0/2 


o 


si r es impar 
= (5.24) 
0/(r+D2] sires par. 


| 


TABLA 5.5 Comparación entre las frecuencias teórica y observada para una distribución 


uniforme 

Cuota Número Frecuencia Intervalo Probabilidad Número 
anual observado relativa uniforme del intervalo esperado 
82- 86 3 0.075 81.5- 86.5 0.167 6.667 
87- 91 7 0.175 86.5- 91.5 0.167 6.667 
92- 96 8 0.200 91.5- 96.5 0.167 6.667 
97-101 8 0.200 96.5-101.5 0.167 6.667 
102-106 7 0.175 101.5-106.5 0.167 6.667 
107-111 7 0.175 106.5-111.5 0.167 6.667 


Totales 40 1.000 1.000 40.000 
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Dado que ni la varianza ni los factores de forma se ven afectados por el cambio de 
localización, la varianza, el coeficiente de asimetría y la curtosis relativa de la va- 
riable aleatoria distribuida uniformemente se encuentran a partir de (5.24) y están 
determinadas por: 


. Var(X) = (b — aY/12, . (5.25) 
aíX) =0, y (5.26) 

_ (b—ay/80 9 
aX) = ars (5.27) 


Puede emplearse (5.23) para determinar la desviación media de la siguiente manera: 


8/2 
Ejri=0" | blas 
ö/2 
SS 207 | ydy 
0 
= 0/4. (5.28) 


De esta forma la desviación media de una variable aleatoria distribuida de manera 
uniforme está dada por (b — a)/4. 

Una distribución uniforme es simétrica y tiene un pico menor que el de la distri- 
bución normal, no tiene moda y su mediana es igual a la media. Los valores cuanti- 
les x,, correspondientes a la proporción acumulativa q, son de manera tal que: 


F(x,; a, b) = q, 
los que, por (5.20) son: 
xX, = a+ (b — a. (5.29) 


En la tabla 5.6 se encuentran resumidas las propiedades de esta distribución. 
Más adelante se examinará el caso especial cuando a = 0 y b = 1. Este último se 
conoce como distribución uniforme sobre el intervalo unitario (0, 1) con función de 


TABLA 5.6 Propiedades básicas de la distribución uniforme 


Función de densidad de probabilidad Parámetros 
a, “LLU 
fiax:a, b) = 1/(b- a), asxzb 
b. -x< þ<x, 
Coeficiente 
Desviación Valor del de Curtosis 
Media Varianza media cuantil asimetría relativa 


la + b)/2 «(b — ař/12 (b — a)}/4 x = a+ (b -ag 0 9/5 


q 
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densidad de probabilidad: 
fx,0,1) =1, VEL (5.30) 


Esta distribución es, de manera especial, muy importante ya que tiene un papel clave 
en la simulación por computadora de los valores de una variable aleatoria con una 
distribución específica. 


5.4 La distribución beta 


Una distribución que permite generar una gran variedad de perfiles es la distribución 
beta. Se ha utilizado para representar variables físicas cuyos valores se encuentran 
restringidos a un intervalo de longitud finita y para encontrar ciertas cantidades 
que se conocen como límites de tolerancia sin necesidad de la hipótesis de una distri- 
bución normal. Además, la distribución beta juega un gran papel en la estadística 
bayesiana. Se examinará un ejemplo de lo anterior en el capítulo seis. 


Definición 5.3 Se dice que una variable aleatoria X posee una distribución beta si 
su función de densidad de probabilidad está dada por: 


Fla +8) ai aei 
eaa A Eea) 0<x<l, a, B>0, 

fa a, B) = 3 HIS) i Sp (5.31) 
0 para cualquier otro valor 


Las cantidades œ y £ de la distribución beta son, ambas, parámetros de perfil. 
Valores distintos de œ y 8 darán distintos perfiles para la función de densidad beta. 
Sin tanto a como 8 son menores que uno, la distribución beta tiene un perfil en for- 
ma de U. Si a < 1 y 8 = 1, la distribución tiene un perfil de J transpuesta, y si 
B < 1 y a = 1, el perfil es una J. Cuando tanto « y 8 son ambos mayores que uno, 
la distribución presenta un pico en x = (a — 1)/(a + 8 -—2). Finalmente, la 
distribución beta es simétrica cuando œ = £. En la figura 5.6 se encuentran ilustra- 
dos estos perfiles para valores específicos de a y B.Nótese que si en (5.31) x se reem- 
plaza por x — 1, se obtiene la siguiente relación de simetría 


fO — x; B, a) = f(x; a, B) (5.32) 


El nombre de esta distribución proviene de su asociación con la función beta que 
se encuentra definida por 
t 


Bla, B) = a -= 1% dx. (5.33) 


Puede demostrarse que las funciones beta y gama se encuentran relacionadas por la 
expresión 


Bor B= Ta pj 
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f(x) 
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0,2 0.4 06 0.8 x 0.2 0.4 06 0.8 x 


FIGURA 5.6 Gráficas de la función de densidad beta para distintos valores de a y B 


Mediante el empleo de (5.33) y (5.34), es obvio que (5.31) es una función de densidad 
de probabilidad. Esto es: 


Ma + B) x27 (1 S ye ldx Tía T(a + p) 


———— B =; 
TTG) do = Tara A = 


y puesto que f(x; a, B) es no negativa, (5.31) es una función de densidad de proba- 
bilidad. 
La función de distribución acumulativa se encuentra definida por: 


0 x<0, 
P(X = x) = F(x; a, B) = T A t1 — Df 'dt 0<x<1, (5.35) 


1 xl. 
La integral que aparece en (5.35) es la función beta incompleta: 


Bla, B) = | a — HE dr. (5.36) 


De esta forma, la función de distribución beta puede expresarse como un cocien- 
te de funciones beta incompletas, 


F(x; a, B) = Bla, B)/B(a, B) 
=- (a, B) 0<x<1, (5.37) 


donde /(«, 8) se encuentra tabulada de manera extensa (véase [5,6]). En [5], los 
valores cuantiles x son aquellos para los que 7,(œ, 8) es igual a 0.0025, 0.005, 0.01, 
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0.025, 0.05, 0.1, 0.25 y 0.5 para las distintas combinaciones de œ y 8. Con el fin de 
encontrar los valores cuantiles correspondientes a puntos de alto porcentaje, consi- 


dérese lo siguiente: À 


P(X s x)= PU -X>1-x) 
1=P1-X=1- x; 


entonces, por la relación de simetría (5.32): 


F(x; a, B) = 1 — FU — x; B, a) 


La, B) =]- 1,-LB, a). (5.38) 


De esta manera, los valores cuantiles para los puntos de alto porcentaje se en- 
cuentran al intercambiar œ y 8 y toman el punto de porcentaje igual a 1 — x. A ma- 
nera de ilustración, sea X una variable aleatoria beta con œ = 2 y 8 = 4; los valores 
cuantiles 90, 95 y 99 son 0.58389, 0.65741 y 0.77793, respectivamente. En la tabla 5.7 
se proporcionan los valores cuantiles para combinaciones de valores de a y 8 que dan 
origen a los distintos perfiles de la distribución beta. 

Es más facil obtener los momentos de la variable aleatoria beta mediante el empleo 
del método directo, que por el uso de la función generadora de momentos, debido a 
que esta última no tiene una forma sencilla. En particular, se encontrará una expre- 
sión general que permita obtener el --ésimo momento alrededor del cero y después 
emplearla para obtener los momentos restantes: 


rn == F(a + B) i a+r=1) Ex Bi 
H, = EX) = TTG) o x (1 ~ x dx 
_ Fía + g) 
= TOA) Bla + r, B) 


_F(a+b) Fía + prg) 
— DNB) Ta +8 +r) 


_ Tía + Bla +r) 


= : 5.39 
Moya + B + r) pd 
Como resultado, 
i Fla + Bla + 1) 
ÓN Fiala + 8 + 1) 
e (5.40) 
a+ÑA 
y > 
VanX) = ol) z = 
(a + BXa+B+1) (a + BY 
za (5.41) 


da + Bra BD 
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TABLA 5.7 Valores de cuantiles beta para distintas combinaciones de a y 8 


X0.25 Xo.50 X0.75 
a=p= 1/2 0.14645 . 0.50000. 0.85355 
a = 12,8 =2 0.02831 0.12061 0.31122 
a = 2,ß = 1/2 0.68878 0.87939 0.97169 
a=4,B=6 0.29099 0.39308 3 0.50199 


Al seguir este procedimiento y después de efectuar el álgebra necesaria, el coeficiente 
de asimetría y la curtosis relativa para la distribución beta están dadas por: 


AB -a Ya + B+ 1 


AOS Vab la + B + 2) 
y 
2 P 
mE Ma + B + Dla + BY + afila + B o (5.43) 


abla + B + 2Na + B + 3) 


Mediante el examen de (5.42) puede observarse que la distribución beta es simétrica 
sólo si « = 8, tal y como ya se habia mencionado. Si œ < 8, la distribución tiene 
un sesgo positivo y si « > f, la distribución presenta un sesgo negativo. 

En la tabla 5.8 se proporciona un resumen de las propiedades de la distribución 
beta. 

Algunas áreas, en las que se emplea la distribución beta como modelo de proba- 
bilidad incluyen la distribución de artículos defectuosos sobre un intervalo de tiempo 
específico; la distribución del intervalo de tiempo necesario para completar una fase 
de proyecto en PERT, evaluación de programas y técnicas de revisión, (en este caso 
se emplea la distribución beta generalizada; véase [14]); la distribución de la propor- 
ción de los valores que deben caer entre dos observaciones extremas. 


TABLA 5.8 Propiedades básicas de la distribución beta 


Función de densidad de probabilidad Parámetros 
ds Ma + B) ai P a. a>0 
Hu a, B) = TaB) xl- x) B. B>0 
0O<vY<l 
Coeficiente Curtosis 
Media Varianza i de asimetría relativa 
a aß AB- a) Va+ß+ı $ 
atg (a+ Ba + B +1) Vaf la + B +2) 


Ma + B + Mila + BY + afla + B - 6) 
abla + B + Ma + B + 3) 
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La esencia de esta última área tiene relación con los límites estadísticos de tole- 
rancia. Estos límites son muy importantes, especialmente en el control estadístico de 
calidad donde el control de variabilidad de un producto es esencial. Este control, en 
general, se lleva a cabo mediante la medición de algunas propiedades del producto o 
determinando los ajustes que deben hacerse al proceso de producción para mejorar 
la calidad del producto. Los límites estadísticos de tolerancia no son iguales a las to- 
lerancias físicas o especificaciones límite. Éstos son' conjuntos de criterios diseñados 
para un proceso de producción en particular y que se espera que todas las unidades 
cumplan. Los límites estadísticos de tolerancia se tratarán en el capítulo ocho. 

Puede demostrarse que si la suma de los parámetros que determinan el perfil de la 
distribución beta es, de manera relativa, grande, la función de distribución acumulati- 
va beta (5.35) se puede aproximar de manera adecuada por la diferencia de dos fun- 
ciones de distribución normal estándar. Esto'es: 


` F(x; a, B) = Eníz,50, 1) — Fnlze5 0, 1), (5.44) 


en donde: 


. — [81 -0.5 (a+ 8 - DU - ») 
“a A DAA 


(a+ B— IXE— x) +0,5 
“= a+ B= DO 


y [8] denota el entero más grande que no excede a £. En la tabla 5.9 se tiene una 
comparación entre los valores de la función beta dados por (5.35) con aquéllos pro- 
porcionados por (5.44). Para cada valor x, el primer renglón correspondiente a ésta 
es el valor exacto de la distribución beta y el siguiente es el que proporciona (5.44). 
Para valores distintos de los finales, la aproximación es adecuada. Sin embargo, nó- 
tese que la discrepancia en los valores superiores disminuye conforme la suma de a y 
B es más grande. 


TABLA 5.9 Comparación entre las funciones de distribución beta y normal 


x a=p=S a=10,8=5 a=10,fB = 15 

0.10 0.0008909 0.0000001 0.0000521 
0.0000317 0.0 0.0000007 

0.25 0.04893 0.0003419 0.05466 
0.04182 0.0001078 0.04947 

0.50 0.50 0.08978 0.8463 
0.4996 0.09009 0.8461 

0.75 0.95107 0.74153 0.99989 

l 0.94118 0.72564 0.99886 
0.90 ` 0,9991091 0.99077 1.0 


0.9405883 0.95160 0.9756 
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5.5 La distribución gama 


Otra distribución de gran uso es la distribución gama. Entre los muchos usos que 
esta distribución tiene se encuentra el siguiente: supóngase que una pieza metálica se 
encuentra sometida a cierta fuerza, de manera que se romperá después de aplicar un 
número específico de ciclos de fuerza. Si los ciclos ocurren de manera independiente 
y a una frecuencia promedio, entonces el tiempo que debe transcurrir antes de que el 
material se rompa es una variable aleatoria que cumple con la distribución gama. 


Definición 5.4 Se dice que la variable aleatoria X tiene una distribución gama si su 
función de densidad de probabilidad está dada por: 


L i 
=~ x" expl- x/0) x>0, a,0>0 
Fx; a, 0) = 4 Maja” (5.45) 
0 para cualquier otro valor, 
en dond» (a) es la función gama definida en el capítulo tres. 
La distribución gama es muy versátil puesto que exhibe varios perfiles que de- 
penden del valor del parámetro æ. En la figura 5.7 se ilustran distintos perfiles de la 


función de densidad gama para distintos valores de œ y 0. Como puede observarse, 
para a = 1, la distribución gama tiene un perfil en forma de J transpuesta. Para 


f(x) 
0.7 


0.6 
0.5 
0.4 
0.3 
0.2 


0.1 


FIGURA 5.7 Gráficas de la funcion de densidad gama para distintos valores de « y 0 
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a > Í, presenta un pico que ocurre en x = (æ — 1). Para un valor fijo de 0 , el 
perfil básico de la distribución gama no se altera si el valor de œ cambia. Lo anterior 
da como resultado que las cantidades a y 9 son los factores de forma y de escala, 
respectivamente, de la distribución gama. 

Esta distribución se emplea de manera extensa en una gran diversidad de áreas; 
por ejemplo, pará representar el tiempo aleatorio de falla de un sistema que falla sólo 
si de manera exacta los componentes fallan y la falla de cada componente ocurre 
a una frecuencia constante A = 1/0 por unidad de tiempo. También se emplea en 
problemas de líneas de espera para representar el intervalo total para completar una 
reparación si ésta se lleva a cabo en subestaciones; completar la reparación en cada 
subestación es un evento independiente que ocurre a una frecuencia constante igual 
a A = 1/0. Existen algunos ejemplos que no siguen el patrón anterior, pero que se 
aproximan de manera adecuada mediante el empleo de la distribución gama, como 
los ingresos familiares y la edad del hombre al contraer matrimonio por primera vez. 

Mediante el empleo de la función gama dada por (3.5), puede demostrarse que 
(5.45) es una función de densidad de probabilidad. Para hacerlo, considérese un 
cambio de variable de integración, tal que u = x/0,x = Gu, y dx = du; en- 
tonces: : 


l | a-t pa En l f a-t Y 
Ta Jo E exp x/0)dx = o Jo (010 EXC Odu 


xX 


1 
= 50d u“ lexp(—ujJdu = 1, 


dado que F(a) = fő u*”'exp(— u)du. 
Con un procedimiento similar se demuestra que el r-ésimo momento alrededor 
del cero es: 


ARET a, T a+r- 
H = To ho * exp( — x/0)dx 
Ez e” k a+r-i 
ez TOF h u exp(— u)du 
8 Ta + r) 
= Ta (5.46) 
Se sigue, por lo tanto, que: 
E(X) = 08 (5.47) 
y 
Var(X) = 06” (5.48) 


Además, después de obtener los momentos centrales apropiados, se puede demostrar 
que el coeficiente de asimetría es 


aX) = 2/Va. (5.49) 
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y la curtosis relativa está dada por: 


a(x) = 2 + 2) (5.50) 


Nótese que a partir de los factores de forma ax(X) y ay(X), la distribución gama 
tiene un sesgo positivo y más picos que la distribución normal, puesto que a(X') > 3 
para cualquier œ > 0. Sin embargo, también debe notarse que conforme el pará- 
metro a se hace cada vez más grande, el sesgo se convierte en menos pronunciado y 
la curtosis relativa tiene el tres como valor límite. De hecho, para valores grandes de 
a la distribución gama puede aproximarse, en algún grado, por una distribución 
normal. Esto es, la variable aleatoria 


Z = (X - 08)/0Va (5.51) 


es, de manera aproximada, igual a la normal estándar para valores grandes de a. 
La función generadora de momentos para la variable aleatoria gama X está dada 
por: 


x 


Elexp(tX)] = x“"lexp[— (1 — 01)x/0ldx. 


Tr(a)" Jo 
Sea y = (1 — 00x/0, x = u0/(1 — 01), y dx = [0/(1 — 61)]du. Entonces: 


> a—iga-l 


u 


1 
T(ayóo* l, (1 


l 
"Tay — en” 


9 
Elexp(tX)] = Tan exp( — u) ——— du 


(1 — 8t) 
Í u~ 'exp(— u)du 


= (1-00,  0<1<1/0. (5.52) 


La función de distribución acumulativa se determina por la siguiente expresión: 
x 


1 
Fx; a, 0) = ral 


t% lexp(—1/0)dt, x>0. (5.53) 


Se tabularon muchas versiones de (5.53). Por ejemplo, si se efectúa el cambio de va- 
riable u = 1/6 de manera tal que £ = Ou y dt = ədu, entonces (5.53) toma la si- 
guiente forma: 


l x/0 
F(x; a. 0) = Toe" [ (0u) expt— 0M6du 


] x/0 
= Í u“ 'expl ~ du. 


Fa) do 


La integral f/” u* 7 exp(— ujdu se conoce como la función gama incompleta y 
se denota, generalmente, por y(x/6; a). El cociente de y(x/0; œ) y de la función 
gama completa F(a) recibe el nombre de cociente de la función gama incompleta y 
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se encuentra tabulado en [8] para distintos valores de x/9 y «œ. De acuerdo con lo 
anterior, la función gama de distribución acumulativa se escribe como: 


PX =x) = Fx; a, 0) = y(x/0,a)/Tla). (5.54) 

En i7) se encuentra una tabla muy extensa de los valores de una función equivalente 
a (5.53), dada por: Nx 

Ku, p) = F(x; a, 0), (5.55) 


donde u = x/0Va yp = a — 1. Debe notarse que si el parámetro de forma « es 
un entero positivo, (5.55) se puede expresar, en forma cerrada: 


xo Ahy l a 
F(x,a,0) = 1 — | + 6 + H) E O al) (0:10 (5.56) 


como resultado de efectuar varias integraciones por partes. También el valor cuantil 
Xx, para el que F(x,; œ, 6) = q no puede determinarse de manera directa; éste 
puede interpolarse a partir de los valores que aparecen en las tablas dadas en [7] q. 
[8]. En la tabla 5.10 se da un breve resumen de las propiedades básicas de la distribu- 
ción gama. 


Ejemplo 5.9 Supóngase que cierta pieza metálica se romperá después de sufrir dos 
ciclos de esfuerzo. Si estos ciclos ocurren de manera independiente a una frecuencia 
promedio de dos por cada 100 horas, obtener la probabilidad de que el intervalo de 
tiempo se encuentre hasta que ocurre el segundo ciclo: a) dentro de una desviación 
estándar del tiempo promedio, y b) a más de dos desviaciones estándar por encima 
de la media. 


Sea X la variable aleatoria que representa el lapso que transcurre hasta que la 


pieza sufre el segundo ciclo de esfuerzo. Si X tiene una distribución gama cona = 2 
y O = 50 horas debido a que la frecuencia promedio es 0.02 por hora. La fun- 


TABLA 5.10 Propiedades de la distribución gama 


Función de densidad de probabilidad Parámetros 
l 
(ra, 0) = 1 expl- x/0 > 
fix; a, 0) Fay" x““expí-—x/0) a, a>0 
x>0 0, 0>0 
Coeficiente 
Media Varianza de asimetría Curtosis relativa 


að . a0’? 2/Va (i n 2) 


156 Algunas distribuciones continuas de probabilidad 
ción de densidad de oe es i 


f(x; 2, 50) = TOs x NA x/50), x>0, 


mas 
y la función de distribución acumulativa dada por (5.56) se reduce a: 


50 


De (5.47) y (5.48), los valores de la media y de la desviación estándar de X son 100 y 
70.71, respectivamente. De acuerdo con lo anterior: 


P(u -0o < X <p + 0) = P(Q9.29 < X < 170.71) 
= F(170.71; 2, 50) — F(29.29; 2, 50) 
= 0.7376. 


F(x; a, 8) =1- ( + Eerp(—1/50, x>0. 


Noutese que la probabilidad de que el lapso sea menor de una desviación estándar 
por debajo de la media es de 0.1172 y la probabilidad de que éste sea más grande que 
la media por una desviación estándar es 1 — 0.8548 = 0.1452. Finalmente: 


P(X > 241.42) 
= 1 — F(241.42; 2, 50) 
0.0466. 


il 


P(X > u + 20) 


Ejemplo 5.10 Para demostrar el grado de concordancia entre las distribuciones 
normal y gama, se seleccionaron, para esta última, los valores de 3.5 y 7 para el pará- 
metro de forma a, y para 9 = 10, calculándose las funciones de distribución acu- 
mulativa para distintos valores de las correspondientes variables aleatorias. La in- 
formación anterior se encuentra en la tabla 5.11. 


A partir de la información dada en la tabla 5.11, es evidente que la función de 
distribución acumulativa normal sobreestima los valores dados por la correspon- 
diente función de distribución acumulativa gama en los extremos, mientras que la 
subestima alrededor de la media. Lo anterior es válido para los dos valores de «; sin 
embargo, para œ = 7, la concordancia en los extremos es considerablemente mejor 
que cuando a = 3.5. Como resultado, se espera que la concordancia aumente para 
valores de « más grandes que siete. 

Cuando a es un entero positivo, la distribución gama también se conoce como 
distribución de Erlang en honor del científico danés que la usó por primera vez a 
principios del año 1900 a fin de establecer resultados útiles para problemas de tráfico 
en líneas telefónicas. Existe una asociación entre los modelos de probabilidad de 
Poisson y de Erlang. Si el número de eventos aleatorios independientes que ocurren 
en un lapso específico es una variable de Poisson con una frecuencia constante de 
ocurrencia igual a 1/9, entonces para una a, el tiempo de espera hasta que ocurre el 
a-ésimo evento de Poisson tiene una distribución de Erlang. Este resultado se sigue 
al hacer una comparación entre las funciones de distribución acumulativa de los mo- 


A E 
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TABLA 5.11 Comparación entre las funciones de distribución acumulativa gama y normal 


a = 3.5, 0 = 10, p = 2.5; p = 35, a =7,0 = 10, p = 6; p = 70, 
o = 18.71 , o = 26.46 
Gama Normal Gama Normal 
X u lu, p) F(x; p, 0) X u Ilu, p) Fx; p, 0) 
0 0 0 0.0307 0 `o 0 0.0041 
5 0.27 0.0058 0.0516 10 0.38 0.000098 0.0116 
10 0.53 0.0397 0.0902 20 0.76 0.004865 0.0294 
15 0.80 0.1144 0.1423 30 1.13 0.0431 0.0655 
20 1.07 0.2209 0.2119 40 1.51 0.1103 0.1292 
25 1.34 0.3417 0.2981 50 1.89 0.2380 0.2236 
30 1.60 0.4587 0.3936 60 2.27 0.3946 0.3520 
35 1.87 0.5706 0.5000 70 2.65 0.5518 0.5000 
40 2.14 0.6678 0.6064 80 3.02 0.6853 0.6480 
45 2.41 0.7485 0.7019 90 3.40 0.7928 0.7764 
50 2.67 0.8107 0.7881 100 3.78 0.8698 0.8708 
55 2.94 0.8612 0.8577 110 4.16 0.9215 0.9345 
60 3.21 0.8997: 0.9098 120 4.54 0.9544 0.9706 
65 ~ 3.47 0.9274 ' 0.9485 130 4.91 0.9739 0.9884 
70 3.74 0.9486 0.9693 140 5.29 0.9857 0.9959 
75 4.01 0.9640. 0.9838 150 5.67 0.9924 0.9987 
80 4.28 0.9750 0.9920 160 6.05 0.9960 0.9997 


delos de Poisson y de Erlang dadas por (4.17) y (5.56), respectivamente. Esto es, la 
probabilidad de que ocurran a lo más a — 1 eventos de Poisson en un tiempo x a una 
frecuencia constante 1/0 se desprende de (4.17) y está dado por: 


1 y 2 1 a-l 
Fpla — 1;x/0) = fı + A + TA +o c+ o fexoc=vo 


Por otro lado, si se supone que el tiempo de espera sigue el modelo de Erlang, la 
probabilidad de que el tiempo de espera hasta que ocurra el a-ésimo evento exceda 
un lapso x especifico, está determinado por: 


PIX >x) = 1 — F(x: a, 0) 


il 
| 
PARA 
| 
FAA 
+ 
DI 
+ 
li 
ES 
Dix 
LÈ 


pato (; Als (—x/0) 
(a De) T Es 
pey (3) hor e y expl —/0) 
E ome la E py 


Fp la- 1: x/0). (5.57) 


Il 


158 Algunas distribuciones continuas de probabilidad 


En otras palabras, la probabilidad de que el tiempo que transcurre hasta el 
a -ésimo evento exceda el valor x es igual a la probabilidad de que el número de even- 
tos de Poisson observados en x no sea mayor quea — 1. De esta forma, la distribu- 
ción de Erlang es el modelo para el tiempo de espera hasta que ocurre el a.-ésimo 
evento de Poisson, y la distribución de Poisson es el modelo para el número de even- 
tos independientes que ocurren en un tiempo x, encontrándose éste distribuido de 
acuerdo con el modelo de Erlang. En este contexto, 1/0 es la frecuencia constante 
de ocurrencia y 0 es el tiempo promedio entre dos ocurrencias sucesivas. 

Cuando el parámetro de forma « es igual a uno, la distribución de Erlang (gama) 
se reduce a lo que se conoce como la distribución exponencial negativa. Esta distri- 
bución se emplea de manera extensa para representar lapsos aleatorios de tiempo y 
se trata con gran detalle en una sección subsecuente de este capítulo. Sin embargo, 
nótese que la variable aleatoria de una distribución exponencial negativa puede pen- 
sarse como el lapso que transcurre hasta el primer evento de Poisson. De acuerdo 
con lo anterior, la variable aleatoria de Erlang es la suma de variables aleatorias in- 
dependientes distribuidas exponencialmente. 

Otro caso especial del modelo de probabilidad gama es la distribución chi- 
cuadrado. Si se reemplaza en (5.45) el parámetro de forma «œ con »/2 y el pará- 
metro de escala 0 con 2, el resultado es la función de densidad de probabilidad de 
una variable aleatoria chi-cuadrado y se determina por: 


l v/2-1 
EELNE e  x>0, 
kenel mor e E (5.58) 


0 para cualquier otro valor. 


La distribución chi-cuadrado se encuentra caracterizada por un solo parámetro v, 
que recibe el nombre de grados de libertad. Como se verá, esta distribución inter- 
viene en la inferencia estadística y de manera especial al hacer inferencias con respec- 
to a las varianzas. Se emplea, de manera general, la notación X ~ y? para indicar 
que una variable aleatoria tiene una distribución chi-cuadrado con v grados de li- 
bertad. 

La función de distribución acumulativa está dada por: 


l NS 
PX =x) = a | v/2 1 2 x>0, . 

( x) 10/1227 Jo t exp(—t/2)dt r>0 (5.59) 

y se encuentra tabulada de manera extensa. En la tabla E dei apéndice se encuentran 
los valores cuantiles x,_., ,, de manera que 

P(X & Xia) = [ TES vdx=l-a 
0 

para algunas proporciones acumulativas seleccionadas | — a* y distintos valores 

de v. A manera de ilustración, si v = 10, 


* En este contexto, la introducción de la cantidad a, 0 < a = 1. sirve para facilitar una discusión poste- 
rior de un concepto que recibe el nombre de “*probabilidad del error de tipo 1”, que de manera general 
se denota por «. 
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P(X < Xo01.10) = P(X = 2.55) = 0.01, 

- P(X = Xo0510) = P(X = 3.94) = 0.05, 
P(X = Xo.95.10) = P(X = 18.31) = 0.95, 
~ P(X = Xo99.10) = P(X <= 23.19) = 0.99. 


Los momentos de la distribución chi-cuadrado se obtienen a partir de (5.47) a 
(5.50) y están dados por: 


E(X) = v, 
Var(X) = 2v, 
aX) = 4/ Vx, 


a (X) = fı + 1) 
v 


Análogamente y a partir de (5.52), la función generadora de momentos para la 
distribución chi-cuadrado es: 


(5.60) 


N= 


m(t = Q -29  0<tf< 


Nótese que una característica interesante de la distribución chi-cuadrado es que el 
valor de su varianza es dos veces el valor de su media. Además, como está distribu- 
ción es un caso especial de la distribución gama, presenta un sesgo positivo y un pico 
mayor que el de una distribución normal, pero el coeficiente de asimetría tiende a 
cero y a una curtosis relativa igual a tres conforme » tiende al infinito. 


5.6 La distribución de Weibull 


La distribución de Weibull fue establecida por el físico suizo del mismo nombre, 
quien demostró, con base en una evidencia empírica, que el esfuerzo al que se someten 
los materiales puede modelarse de manera adecuada mediante el empleo de esta dis- 
tribución [9}. En los últimos 25 años esta distribución se empleó como modelo para 
situaciones del tipo tiempo-falla y con el objetivo de lograr una amplia variedad de 
componentes mecánicos y eléctricos. 


Definición 5.5 Se dice que una variable aleatoria X tiene una distribución de 
Weibull si su función de densidad de probabilidad está dada por: 


fx; a, 0) = S xT expl (4/0) x>0; a,9>0, 


0 para cualquier otro valor. 


(5.61) 


La distribución de Weibull es una familia de distribuciones que dependen de dos 
parámetros: el de forma a y el de escala 0. Se puede introducir un parámetro adi- 
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cional al reemplazar la variable aleatoria de Weibull X por X — a, en donde a es un 

parámetro de localización que representa un valor umbral o tiempo de garantía. En 

la figura 5.8 se muestran varias gráficas de la distribución de Weibull para distintos 

valores de a y 0, y como puede observarse, esta distribución tiene distintos perfiles 

dependiendo del valor de a. Por ejemplo, si æ < 1, (5.61) tiene una forma de J 

transpuesta, y si œ > 1, la función de densidad de Weibull presenta un pico único. 
La función de distribución acumulativa de Weibull 


F(x; a, 0) = zi t% 'expl-(t/0)"]dt (5.62) 


puede obtenerse en forma cerrada mediante la evaluación directa de la integral en 
(5.62). Esto es: 


xX 


F(x; a, 0) = & (- Dexpr=/071 
e” a 


= 1 — expl- (x/0°], xz0. (5.63) 


o 


De (5.63), el valor cuantil x, es: 
1 — expl -(x,/0%] = q 
-0(In(1 — y” 


1 i/a 
= 01 - -)| À (5.64) 


En particular, la mediana de una variable aleatoria de Weibull es: 
Xos = Oln). (5.65) 


Xq 


FIGURA 5.8 Gráficas de la función de densidad de Weibull para distintos valores de a y 8 
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Los momentos y los factores de una variable aleatoria de Weibull se encuentran 
primero al determinar el r-ésimo momento central alrededor del cero: 


Es 


w= EX) = [ xf(x; æ, O)dx 


0 


x X 
pe a a+r—-1 S a 

= 2 (f xettexpi= 0/0" ]dx. (5.66) 
En (5.66), sea u = (x/0)”; entonces x = Gu''* y dx = (0/0Ju'*"' du. El resulta- 
do es: 


u = (Qu eyorr=! ri id 
07 Jo a 


1 


9" f u“exp(— u)du 


r 


or + 2). (5.67) 
a 


De (5.67), la media de X es: 
EX) = a(i + 2), (5.68) 
a 


y la varianza de X es el resultado de evaluar: 


Var(X) = er + 2) — ri + 21 (5.69) 
a a 


Mediante el empleo del mismo procedimiento pueden determinarse el coeficiente 
de asimetría y la curtosis relativa. Éstos se encuentran en la tabla 5.12. Los facto- 


TABLA 5.12 Propiedades básicas de la distribución de Weibull 


Función de densidad de probabilidad Parámetros 
flx; a, 0) = Gx lexpl (4/8 a, a>0 
x>0 6, 0>0 
Valor del Coeficiente 
Media Varianza cuantil de asimetría  Curtosis 
Ija 
or( + 2) eel + 2) - rl + »)| Xy = dEl l )] * Es 
Q Q a l=-q 


TA + 3/0) — 3 + 1/00 +2/0) + 211 + 1/0) 
[A + 2/0) - F + 1/0)P 
FU + 4/0) — AFU + 1080 + 3/0) , 6% + 1/098(1 + 2/0) - FUI + 1/0) 
[FA + 2/0) - TU + 1/01 [Pa + 2/0) - P + 1/07 


"a(X) = 


“*a (X) = 
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TABLA 5.13 Comparación entre las funciones de distribución acumulativa de Weibull y 
normal 


a = 2.25;0 = 10 a = 3.6; 0 = 10 - æa = 5.83; 0 = 10 

s Normal Normal Normal 
X Weibull  (8.858,'4,128)* Weibull (9.01, 2.788)* Weibull (9.267, 1.828)* 
0 0 0.01578 0 0.000619 0 0 
1 0.005608 0.02872 0.000251 0.002052 0.000001 0.000003 
2 0.026395 0.04746 0.003041 0.006037 0.000084 0.000034 
3 0.0644 0.0778 0.013025 0.01539 0.000894 0.000302 
4 0.1195 0.1190 0.036259 0.03593 0.004775 0.001988 
5 0.1896 0.1762 0.0792 0.07493 0.017425 0.009903 
6 0.2716 0.2420 0.1470 0.1401 0.049616 0.03673 
7 0.3612 0.3264 0.2419 0.2358 0.1175 0.1075 
8 0.4541 0.4150 0.3610 0.3594 0.2384 0.2451 
9 0.5457 0.4880 0.4956 0.5000 0.4179 0.4404 
10 0.6321 0.6064 0.6521 0.6368 0.6321 0.6554 
11 0.7104 0.6985 0.7557 0.7611 0.8250 0.8289 
[2 0.7785 0.7747 0.8545 0.8599 0.9447 0.9332 
13 0.8355 0.8413 0.9236 0.9236 0.9901 0.9793 
14 0.8814 0.8925 0.9652 0.9641 0.999184 0.9952 


15 0.9171 0.9319 0.9865 0.9842 0.999976 0.999155 


* Média y desviación estándar 


res de forma pueden graficarse como funciones del parámetro de forma de la distri- 
bución de Weibull (véase [2]). Estas gráficas revelan lo siguiente: la distribución de 
Weibull es simétrica sólo si œ = 3.6; si œ > 3.6, la distribución tiene un sesgo ne- 
gativo y si a < 3.6, se encuentra sesgada positivamente. La curtosis relativa se en- 
cuentra cercana a la de la distribución normal que es de tres cuando « tiene un valor 
cercano a 2.25 o a 5.83. En la tabla 5.13 se proporciona una comparación entre las 
funciones de distribución acumulativa de Weibull y normal, con un «e correspon- 
diente a la distribución de 2.25, 3.6 y 5.83 y con un factor de escala 0 = 10. La con- 
cordancia parece ser relativamente buena tanto en los valores extremos como en el 
centro, especialmente para œ = 3.6 y 5.83, De esta forma, la distribución de 
Weibull puede aproximarse, de manera adecuada, por una distribución normal cada 
vez que el factor de forma « se encuentre cercano a estos valores. 

En la tabla 5.12 se encuentran resumidas propiedades de la distribución de 
Weibull. 

Existen dos casos especiales en la distribución de Weibull que merecen mención 
especial. Cuando el parámetro de forma es igual a uno, la distribución de Weibull (al 
igual que la gama), se reduce a la distribución exponencial negativa. Cuando a = 2 
y el parámetro de escala 0 se reemplaza por V2 ø, la función de densidad de 
Weibull (5.61) se reduce a: 


fx; 0?) = = exp(—x*/20%)  x>0, (5.70) 
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que es la función de densidad de probabilidad de lo que se conoce como distribución 
de Rayleigh. 


Ejemplo 5.11 Un fabricante de lavadoras garantiza sus productos contra cual- 
quier defecto durante el primer año de uso normal. El fabricante ha estimado un 
costo por reparación de $75 durante el periodo de garantía. Con base en la experien- 
cia, se sabe que el tiempo en que ocurre la primera falla es una variable aletoria de 
Weibull con parámetros de forma y escala iguales a 2 y 40, respectivamente. Si el 
fabricante espera vender 100 mil unidades y si, para una misma unidad, se descuenta 
el valor de las reparaciones, se determina el costo esperado de la garantía para el 
fabricante. 


Sea X la variable aleatoria que representa el tiempo que transcurre hasta que se 
presenta la primera descompostura. Por hipótesis, la función de densidad de proba- 
bilidad de X es: 


fx; 2, 40) = ¿A expl- (2/40), x>0. 


La probabilidad de que la primera descompostura ocurra durante el periodo de 
garantía es igual a la probabilidad de que X sea menor o igual a 12. Mediante el 
empleo de (5.63), esta probabilidad es: 


P(X = 12) = 1 — exp[ —(12/40)] = 0.0861. 


Por lo tanto, si se supone que la operación de las lavadoras es independiente entre sí, 
se pueden esperar (100 000)(0.861) = 8610 de fallas durante el tiempo de garantía 
con un costo total de $645 750. 


5.7 La distribución exponencial negativa 


Se ha notado con anterioridad que la distribución exponencial (negativa) es un caso 
especial de los modelos de Weibull y gama. Ya que es un caso especial de la distribu- 
ción gama (Erlang), la variable aleatoria exponencial es el tiempo que transcurre 
hasta que se da el primer evento de Poisson. Es decir, la distribución exponencial 
puede modelar el lapso entre dos eventos consecutivos de Poisson que ocurren de 
manera independiente y a una frecuencia constante. Esta distribución se emplea con 
bastante frecuencia con objeto de modelar problemas del tipo tiempo-falla y como 
modelo para el intervalo en problemas de líneas de espera. Posteriormente se de- 
mostrará que la distribución exponencial no tiene “memoria”. Es decir, la probabi- 
lidad de ocurrencia de eventos presentes o futuros no depende de los que hayan 
ocurrido en el pasado. De esta forma, la probabilidad de que una unidad falle en un 
lapso específico depende nada más de la duración de éste, no del tiempo en que la 
unidad ha estado en operación. 
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Definición 5.6 Si una variable aleatoria X tiene una distribución exponencial, su 
función de densidad de probabilidad está dada por: 


l 
-exp(-x/0 >0, 0>0, 
fe; 0) = qe sd (5.71) 


0 para cualquier otro valor. 


La distribución exponencial se caracteriza por un parámetro 0, que representa el 
lapso promedio de tiempo entre dos eventos independientes de Poisson. En el con- 
texto de la confiabilidad, € recibe el nombre de tiempo promedio entre fallas, y 1/0 
es la frecuencia de falla. La función de distribución acumulativa se obtiene directa- 
mente de los modelos de Weibull o de Erlang y está determinada por 


P(X = x) = F(x,0) = 1 — exp(—x/0). (5.72) 


Las expresiones para los valores cuantiles, momentos y factores de forma para esta 
distribución, se obtienen de las correspondientes expresiones para la distribución de 
Weibull con œ = 1. Esto es: 


Ii 


X = OIn[1/(1 - q)), 


E(X) = 0, 
Var(X) = 0°, 

aíX) = 2, y 

aX) = 9. 


En problemas de confiabilidad, generalmente el interés recae en determinar el 
tiempo de vida promedio de un componente o de un sistema de éstos. El problema 
esencial consiste en identificar la distribución de probabilidad de la variable aleatoria 
que, de manera adecuada, proporciona un modelo para el tiempo de falla. En esta 
línea, una cantidad muy útil es la función de confiabilidad. 


Definición 5.7 Sea T una variable aleatoria que representa el tiempo de vida de un 
sistema y sea f(t) la función de densidad de probabilidad de T. La función de con- 
fiabilidad del sistema a tiempo 1, R(t), es la probabilidad de que el lapso de dura- 
ción del sistema sea mayor que un tiempo t dado. De acuerdo con lo anterior, 


RO = T>) = 1- F),  1>0. (5.73) 


Otra cantidad muy útil para seleccionar una función de densidad de probabilidad 
para el lapso de vida medio de una unidad (o sistema) es la frecuencia de falla o fun- 
ción de riesgo, que se define de la siguiente forma: 


Definición 5.8 Sean f(t) y R(t) las funciones de densidad de probabilidad y de 
confiabilidad, respectivamente, de una unidad en un tiempo dado t. La frecuencia 
de falla h(t) se define como la proporción de unidades que fallan en el intervalo 
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(t, t + dt) con respecto a las que siguen funcionando a tiempo t, y está determinada 
por: 


Ah) = £0/R(. l (5.74) 


Si se conoce la frecuencia de falla, es posible determinar la función de densidad 
de probabilidad de la variable aleatoria. Dado que R(t) = 1 — F(t), mediante di- 


ferenciación con respecto a t, se tiene que R'() = —F'(t); pero F'(t) = fÒ. 
Como resultado se tiene que la frecuencia de falla puede expresarse como: 
MD = —R'O/RO. (5.75) 


Suponiendo que el sistema comenzó a funcionar en ! = 0, R(0) = 1. Integrando 
ambos miembros de (5.75) desde 0 hasta 1, se tiene: 


| h(x)dx = — [ [R'()/RG)ldx 


—In[R(9] + In[R(0)) 
—In[R(D), 


I 


donde x es una variable muda de integración. Dado que: 


—In[R(0] = Í hoax, 


se tiene: 


R(t) = e| -f hood 
Mediante el empleo de (5.74), la función de densidad de probabilidad es: 
t 
fO = hi0exp| - f noar, (5.76) 


Existen muchos fenómenos físicos de naturaleza aleatoria que muestran frecuen- 
cias de falla que tienen un parecido a “la curva de la tina de baño”, tal y como se 
ilustra en la figura 5.9. En el intervalo de tiempo, de 0 a t,, la frecuencia de falla es 
apreciable pero disminuye en valor debido al ““sindrome de mortalidad infantil”, 
mismo que sugiere que las primeras fallas pueden tener su origen en defectos de 
fabricación. Durante el intervalo de t, a t,, h(t) es casi constante, pero comienza a 
aumentar de valor después de t, por fallas debidas al desgaste de los componentes. 
Se puede imaginar una frecuencia de falla constante si los componentes se prueban 
inicialmente para detectar fallas por desgaste y se reemplazan antes de t. 

Si la frecuencia de falla 1/9, es constante, la función de densidad de probabili- 
dad del tiempo de vida medio es la exponencial negativa. Esto es, si (1) = 1/0, en- 


tonces de (5.76) se tiene: 
I f *1 
6 ex =j La | 


= 1 exp(=1/0). 


Ho) 
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h(t) 


FIGURA 5.9 Función de frecuencia de falla típica 


Nótese que la proposición inversa también es cierta; si el tiempo de vida medio se en- 
cuentra distribuido de manera exponencial, la frecuencia de falla es constante. Dado 
que la función de confiabilidad a tiempo f para un tiempo de vida medio distribuido 
exponencialmente es: 

R(t) = expl—1/0), t>0, (5.77) 
la frecuencia de falla está dada por: 

1/8 = 

paj ONEI) 

exp(— 1/0) 


1/6, 1>0. 


Una frecuencia de falla constante implica que la probabilidad de falla en un in- 
tervalo de tiempo determinado, depende de la duración de éste y no del tiempo en 
que el sistema ha estado operando. Esta última es la propiedad de ““no memoria”. A 
pesar de que el lapso de vida media no se encuentra distribuido de manera exponen- 
cial a lo largo de todo el periodo de funcionamiento del componente, el tiempo de 
operación de un sistema que contiene a éstos puede modelarse de manera adecuada 
por una distribución exponencial si se añade una selección inicial y una política de 
mantenimiento adecuada para los componentes. 

Muchos investigadores proporcionan justificación empírica para la distribución 
exponencial en problemas de confiabilidad. El trabajo de Davis [3], quien demostró 
que el lapso de duración de ciertos componentes eléctricos puede modelarse de ma- 
nera adecuada por una distribución exponencial, es típico: en este sentido. Como 
ejemplo de este trabajo, la tabla 5.14 contiene una comparación entre las frecuencias 
observada y teórica para el tiempo de duración del bulbo V805. El tiempo ae vida 
promedio para este bulbo, con base en los datos que se observaron fue de 179 horas. 
Al sustituir este valor de 0 en (5.72), se pueden obtener las probabilidades teóricas 
para la distribución exponencial. 
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TABLA 5.14 Frecuencias observada y esperada para el bulbo V805 


Tiempo de 
duración _ Frecuencia Frecuencia Probabilidad Frecuencia 
(horas) observada relativa del intervalo esperada 
0-80 317 0.3511 i 0.3604 325.4 
80-160 230 0.2547 A 0.2305 208.2 
160-240 118 0.1307 0.1474 133.1 
240-320 93 0.1030 0.0943 85.2 
320-400 49 0.0543 0.0603 54.5 
400-480 : 33 0.0365 0.0386 34.8 
480-560 7 0.0188 0.0247 22.3 
560-700 26 0.0288 0.0238 21.5 
700 o más 20 0. 0.0221 0.0200 18.1 
Totales 903 1.0000 1.0000 903.1 


El argumento para emplear la distribución exponencial como modelo para el 
tiempo aleatorio en problemas de líneas de espera es similar al que se emplea en los 
lapsos de duración de un componente. Esto es, si un taller de reparación opera por 
un tiempo suficientemente largo para obtener una condición cercana al equilibrio, la 
probabilidad de hacer una reparación o que ésta se complete en un tiempo determi- 
nado, dependerá de este último, y no del que haya transcurrido en llevar a cabo la úl- 
tima reparación o el completarla. 

'A pesar de que la distribución exponencial negativa se emplea muchas veces para 
modelar la duración aleatoria de cierto componente, no es la distribución más apro- 
piada, en el tiempo en que ocurrirá una falla, para todos los dispositivos. Existe 
una razón para creer que el lapso de tiempo que el componente tiene en operación 
afecta su duración. Los modelos más apropiados en estos casos son la distribución 
de Weibull o la de Erlang. Éstas exhiben frecuencias de falla crecientes, decrecientes 
o constantes dependiendo de cuándo los valores de los parámetros de forma son más 
grandes que, menores que, o iguales a uno, respectivamente. Por ejemplo, la función 
de confiabilidad para la distribución de Weibull está determinada por: 


R(O) = expl- (1/0)*] (5.78) 
y la frecuencia de falla es: 
ht) = ar '/0". (5.79) 


Un ejemplo de sistema con una frecuencia de falla decreciente es aquél que mejora 
su funcionamiento con el paso del tiempo. Un ejemplo de este fenómeno es la dura- 
ción de una empresa. Entre más tiempo tenga ésta operando con menor frecuencia 
se observará una falla en un intervalo dado de tiempo. 


5.8 La distribución de una función de variable aleatoria 


Uno de los ingredientes clave en inferencia estadistica es la distribución de probabili- 
dad de la “estadística”? con base en la cual se formula la inferencia. Puesto que las 
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estadísticas son funciones de variables aleatorias, en muchas ocasiones es posible ob- 
tener sus distribuciones si se conocen las variables aleatorias sobre las que éstas se 
basan. 

En esta sección se examinará una técnica para determinar la distribución de 
una función de variable aleatoria, considerando el caso de una variable aleatoria 
continua. Sea X una variable aleatoria con función de densidad de probabilidad 
fx(x), y sea Y = g(X) una función definida de X. Supóngase que és posible resol- 
ver y = g(x) para x obteniendo de esta forma la función inversa x = g” (y). Si 
g(x) y g”'(y) son funciones univaluadas de x y y, respectivamente, se dice que la 
transformación es uno a uno. Esto es, a cada punto en el espacio muestral de X le 
corresponde un punto único del espacio muestral de Y y viceversa. Si se supone la 
existencia de una transformación uno a uno y además que y = g(x)es una función 
creciente y diferenciable de x, se puede determinar la función de densidad de proba- 
bilidad de X en la siguiente forma: 


Debido a la existencia de una transformación uno a uno: 


FA y) = P(Y < y) 


= P[g(X) < y] 
= P[X< g (y). 
Entonces: 
FAy) = Fxle '(y)). (5.80) 


Al establecer la diferencia (5.80) con respecto a y y mediante el empleo de la rea 
de la cadena, se tiene: 


z dFxlg~ 0) i dx 
fro) = aa E dy 


molk 
= fylg OM (5.81) 


Si g(x) es una función decreciente de x, el resultado que se obtiene es el mismo con 
excepción de que la derivada de una función decreciente es negativa. De esta manera 
se puede formular la siguiente proposición: 


Teorema 5.2 Sea X una variable aleatoria continua con función de densidad de 
probabilidad f,(x) y definase Y = g(X). Siy = g(x) y x = g” (y) son funciones 
univaluadas, continuas y diferenciables y si y = g(x) es una función creciente o decre- 
ciente de x, la función de densidad de probabilidad de Y está determinada por: 


d: 
AO) = file "ON Al (5.82) 
y 


en donde la cantidad J = idx/dy| recibe el nombre de Jacobiano de la transfor- 
mación. 
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El teorema 5.2 se obtiene a partir de una técnica de cambio de variable en una in- 
tegral definida, que ya se empleó en varias ocasiones. 

Sea X una variable aleatoria continua con una función de densidad de probabili- 
dad f(x; u, 0, a), donde u, 0, y œ son los parámetros de localización, escala y 
forma respectivamente. El efecto del parámetro de forma «œ puede hacerse más claro si 
se considera la distribución de la variable aleatoria estandarizada Y = (X — p)/6, 
la cual no contiene a q y 9. Mediante el empleo de (5.82), la función de densidad de 
probabilidad de Y es: 


INMI) = Ox (Oy + u), (5.83) 
ya que la relación inversaes x = Oy + pu yel Jacobiano está dado por dx/dy = 
6. En particular, sea X una variable aleatoria con distribución gama y cuya función 
de densidad se establece por (5.45). La función de densidad de Y = X/8 es: 


1 
flv == y 'expl-y),  y>0. (5.84) 


T(a) 
De manera similar, si X es una variable aleatoria de Weibull con función de densi- 
dadde probabilidad dada por (5.61), la densidad de Y = X/0 es: 


fwlyz a) = ay lexp(—y%),  y>0. (5.85) 


Si no existe un parámetro de forma y si y y 9 son la media y la desviación están- 
dar de X, respectivamente, entonces (5.83) dará origen a una función de densidad 
libre de parámetros con media cero y desviación estándar uno. Un ejemplo de lo an- 
terior es la función de densidad de probabilidad normal estandarizada. 


Ejemplo 5.12. Sila variable aleatoria X se encuentra distribuida de manera unifor- 
me en el intervalo (0,7r), debe obtenerse la función de densidad de probabilidad de 
la función Y = c sen (X), para cualquier constante positiva c. 


Nótese que la relación y = c sen (x) es una función estrictamente creciente de x 
en el intervalo (0, 7/2) y estrictamente decreciente en el intervalo (7/2, m). Cuan- 
do la relación funcional es creciente en alguna parte del dominio de la variable alea- 
toria original y decreciente para el resto, la función de densidad de probabilidad de 
interés puede obtenerse al tratar cada parte de manera separada y sumar los resulta- 
dos. De acuerdo con lo anterior, los intervalos (0, 7/2) y (1/2, 7m) deben manejar- 
se en forma separada. 

La relación inversa es: 


x =sen (y/0), 
y el Jacobiano de la transformación es: 


dx 
dy 
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Dado que la densidad de X es: 
fœ = 1I/r 0<x<r, 
para el intervalo (0, 7/2), 


fi) = TG -yy 0sysc, 
y para el intervalo (7/2, 7), 


ho) = Le -yy 0sysc. 


La función de densidad de probabilidad de Y es: 
Fo) = 40) + £0) 


2 1”... <y<c. (5.86) 


| 

| 
-~ 
a 

N 
æ< 


Ejemplo 5.13 Sea X una variable aleatoria distribuida normalmente con media u y 
desviación estándar o. Obtener la función de densidad de probabilidad de Y = 
exp(X). 


La relación y = exp(x) es una función creciente y diferenciable de x. La relación 
inversa es x = In(»), y el Jacobiano es dx/dy = 1/y. Por lo tanto, la densidad de Y 
es: 


e _1[m0)=af 
fr(y; uT) += Vr oy exp 2 | pa | }, y > 0. (5.87) 


La expresión dada en (5.87) es la función de densidad de probabilidad de lo que se 
conoce como el modelo log-normal. A pesar de que los parámetros de la densidad 
log-normal son las cantidades u y ø, éstas no representan parámetros de localiza- 
ción o escala. Más bien son la media y la desviación estándar de la correspondiente 
variable aleatoria normal. Mientras que la variable aleatoria normal se considera, en 
muchas ocasiones, como la representante del efecto aditivo de muchos errores 
físicos pequeños, la variable aleatoria log-normal representa el efecto multiplicativo 
de éstos. La distribución log-normal se emplea en una gran variedad de aplicaciones 
que incluyen el problema de evaluar los efectos de la fatiga sobre materiales. Véase 
[1] para una presentación detallada de esta distribución. 

Existe otro método para determinar la distribución de una función de variable 
aleatoria que emplea la función generadora de momentos. Recuérdese que esta fun- 
ción, si existe, determina de manera unívoca una distribución de probabilidad. De 
esta manera, si se encuentra que una variable aleatoria tiene la misma función gene- 
radora de momentos que la de una distribución conocida, entonces la función de va- 
riable aleatoria tiene la misma distribución. 
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Ejemplo 5.14 Sea Z una variable aleatoria distribuida normalmente con media 
cero y desviación estándar uno. Demostrar que la distribución de: 


l E=2Z" 
es una distribución chi-cuadrado con un grado de libertad. 
. N 


Por definición, la función que genera momentos de Z° es: 
mzkt) = Elexp(1Z?)] = A expliz? )f(z)dz 
= (2m) f expltz?)exp(—2?/2)dz 


= Qm"? |” expl- - 2042 


e 2 
— -1/2 A A 
= (2r) a ex) N Ele 


Nótese que, excepto por una constante, el integrando de la última integral es igual al 
de la función de densidad de probabilidad de una variable aleatoria normal con me- 
dia cero y varianza (1 — 21)~'. Para hacer el integrando igual a una distribución nor- 
mal con media cero y varianza (1 — 2f)”*, se multiplica tanto el numerador como 
el denominador por la desviación estándar (1 — 2f)”'?, que no es otra cosa más 
que multiplicar la expresión por uno. De esta forma, 


mean = ETS Pi TT 
= (1-29, 


dado que el integrando es una función de densidad de probabilidad normal y por defi- 
nición, la integral desde -œ a œ, es uno. La función generadora de momentos de 
Y = Z? esidéntica a la de la distribución chi-cuadrado con v = 1 grados de liber- 
tad; (véase (5.60)). Por lo tanto, el cuadrado de la variable aleatoria normal estándar 
tiene una distribución chi-cuadrado con un grado de libertad. 


5.9 Conceptos básicos en la generación de números 
aleatorios por computadora 


Desde el advenimiento de los sistemas de cómputo de gran escala, los experimentos 
de simulación se han convertido en técnicas muy útiles para el análisis de sistemas 
complejos que, muchas veces, se constituyen por muchos componentes interdepen- 
dientes. En la simulación de estos sistemas surge la necesidad de simular fenómenos 
aleatorios que son característicos de un sistema en especial. Por ejemplo, si un banco 
desea examinar su sistema de servicios al cliente, debe simular el flujo de clientes al 
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banco, así como también el tiempo necesario para llevar a efecto cada operación 
bancaria y estos sucesos constituyen eventos aleatorios. 

Para atacar este tipo de problemas se supone, en general, una distribución de 
probabilidad apropiada para cada fenómeno y se genera una secuencia de valores 
para la correspondiente variable aleatoria por computadora. Puesto que estas se- 
cuencias se generan mediante el empleo de algoritmos numéricos que pueden re- 
petirse exactamente, estas secuencias de números no constituyen, en un sentido 
estricto, números aleatorios. Sin embargo, estas secuencias exhiben suficientes pro- 
piedades aleatorias para emplearse con éxito en muchas aplicaciones. 

El propósito de esta sección no es estudiar las propiedades de los números aleato- 
rios generados por computadora ni determinar la forma más eficiente de hacerlo. 
Más bien el propósito es familiarizar al lector con las posibles formas de generar nú- 
meros aleatorios a partir de alguna de las distribuciones de probabilidad, discretas y 
continuas, que se han estudiado. 

La distribución "niforme sobre el intervalo (0, 1) juega un papel muy importante 
en la generación de números aleatorios por computadora. Para finalizar se establece 
y demuestra el siguiente teorema: 


Teorema 5.3 Para cualquier variable aleatoria continua X, la función de distribu- 
ción acumulativa F(x; 0) con parámetro 0 se puede representar por una variable 
aleatoria U, la cual se encuentra uniformemente distribuida sobre el intervalo unitario. 
Demostración: Dado que por definición la función de distribución acumulativa de 
X está dada por: 


F(x; 0) = Pro 9)dt, 


a cada valor de x le corresponde un valor de F(x; 0) que necesariamente se en- 
cuentra en el intervalo (0, 1). Además, F(X; 0) también es una variable aleatoria en 
virtud de la aleatoriedad de X. Para cada valor u de la variable aleatoria U, la fun- 
ción u.= F(x; 0) define una correspondencia uno a uno entre U y X siendo la rela- 
ción inversa x = F7*(u). Al tener du = dF(x; 0) = f(x; 6)dx, el Jacobiano de la 
transformación es: 


dx 


J= du 


= [f(5 01? = (AF 10,01". 


La función de densidad de probabilidad de la variable aleatoria U, mediante el 
empleo de (5.82), es: 
glu) = f(F~ (u); DEAE 017 


=],. 0<usl. 


La esencia del teorema 5.3 recae en el hecho de que, para muchos casos, es posible 
determinar de manera directa el valor de x que corresponde al valor de u de las va- 
riables aleatoria X y U, respectivamente, de manera tal que F(x; 0) = u. Por esta ra- 
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zón todos los sistemas de cómputo tienen en su estructura la capacidad de generar 
valores aleatorios a partir de una distribución uniforme sobre el intervalo unitario 
(0, 1). De hecho, muchos paquetes estadísticos para computadora, como SAS, SPSS 
y IMSL, proporcionan al usuario la oportunidad de generar números aleatorios a 
partir de una distribución dada. Se ilustrará el uso del teorema 5.3 en la generación 
de números aleatorios para algunas distribuciones de probabilidad específicas. 


5.9.1 Distribución uniforme sobre el intervalo (a, b) 
La función de densidad de probabilidad es: 
fx a,b) = 1/(b - a), asxsb. 


Para generar un número aleatorio x, a < x <= b, primero se genera un valor alea- 
torio u a partir de (0, 1), se iguala a la función de distribución acumulativa, se in- 
tegra y se resuelve para el límite superior x. De esta forma: 


b-a f divi 


x-a 
b-a ” 
o 
x= uļlb-a)+a, asxsb (5.88) 


5.9.2 La distribución de Weibull 


La función de densidad de probabilidad es: 


fx; a, 0) = s x% expl- (x/0°],  x>0. 


Para generar números aleatorios de Weibull x > 0, se resuelve la ecuación 


As 


w 
0* Jo 
(5) = exp -(1/0)*] 
Q 


1 — expl- (x/0°] = u, 


1 l/a 
i x= El )] i (5.89) 
l—u 


t% expl —(1/0)* ]dt 


1 
z 


X 
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z 
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Dado que para a = 1, la distribución de Weibull se reduce a la exponencial, pueden 
generarse números aleatorios para una distribución exponencial mediante (5.89) 
con a = 1. e 


5.9.3 La distribución de Erlang 
La función de densidad de probabilidad es: 


x“ 'exp(—x/0), x>0, 


1 
foa, O = op 


en donde e es un entero positivo. Recuérdese que la variable aleatoria de Erlang es 
la suma de a: variables aleatorias independientes distribuidas exponencialmente. Por 
lo tanto, un número aleatorio de Erlang es la suma de a valores aleatorios exponen- 
ciales, en donde cada valor se genera mediante (5.89). 

5.9.4 La distribución normal 


La función de distribución acumulativa normal es: 


1 3 1/1 - uY 
| exp 1) la =u 
V2r o ?-= A o 
no puede resolverse, en forma cerrada, para x. De manera alternativa, puede de- 


mostrarse que si U, y U, son dos variables aleatorias independientes con distribu- 
ción uniforme sobre el intervalo unitario, entonces 


Z, = (-2 InU)'Psen(27U,) y (5.90) 
Z, = (-2 1nU)'?cos(27U,) 


son dos variables aleatorias normales estandarizadas e independientes. 


5.9.5 La distribución binomial 


Para generar números aleatorios a partir de una distribución binomial con función 
de probabilidad se considerará lo siguiente: la variable aleatoria binomial es vista 
como la suma de » resultados de un proceso de Bernoulli descrito por: 


n! 
pla, p) = PO Py. 20, 1,2, 
(n — x)! x! 
, : con probabilidad p 
O con probabilidad (1 — p). 


Se puede obtener un número aleatorio binomial mediante la suma de n de los valo- 
res de la variable aleatoria Y, en donde cada valor se determina mediante: 


p si0<u=<p 
y= 
0 sip<usl, 


(5.91) 
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donde u es un número aleatorio uniforme sobre el intervalo unitario. Esto es, se ge- 
neran n números aleatorios a partir del intervalo unitario, se convierten a unos y ce- 
ros de acuerdo con (5.91) y la suma de los unos en esta secuencia es el número aleato- 
rio binomial. 


5.9.6 . La distribución de Poisson 


Recuérdese que la probabilidad de tener x ocurrencias en un intervalo de tiempo t 
está definida por: 
_ (ur) exp(— vt) 


E h2 
Xx: 


donde » es la frecuencia constante de ocurrencia, y A = vt es el número promedio 
de éstas. Como la ocurrencia en el tiempo de dos eventos independientes de Poisson 
se encuentra distribuida exponencialmente, se puede generar un número aleatorio 
de Poisson x mediante la generación sucesiva de números aleatorios exponenciales 
por (5.89) para œ = 1. El proceso se continúa hasta que la suma de los valores x + 1 
sea mayor que el intervalo de tiempo t. Por lo tanto, el número aleatorio de Poisson 
es X. 
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Ejercicios 
5.1. En la misma gráfica, dibujar las distribuciones normales N(0, 5) y M(0, 4) 
5.2. Sea X — N (50, 10). Determinar las siguientes probabilidades: 
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a) PIX<40) d) P(X >35) 
b) P(X <65) e) P(40< X < 45) 
c) P(X >55) f) PB8< X < 62) 


5.3. Sea X ~ N(200, 20). Determinar las siguientes probabilidades: 


5.4. 


5.5. 


5.6. 


5.7. 


5.8. 


5.9. 


a) P(185 < X < 210) c) P(X > 240) 
b) P(215 < X < 250) d) P(X > 178) 


Sea X ~ N(-25, 10). Encontrar los valores de x que corresponden a las siguientes pro- 
babilidades: 


a) P(X < x) = 0.1251 c) P(X > x) = 0.3859 
b) P(X < x) = 0.9382 d) PIX > x) = 0.8340 


Sea X ~ N(10, 5). Encontrar los valores de x que corresponden a las siguientes proba- 
bilidades: 


a) P(X < x) = 0.05 d) PIX < x) = 0.01 
b} P(X < x) = 0.95 e) PIX < x) = 0.025 
c) P(X < x) = 0.99 f) PIX < x) = 0.975 


Sea X ~ N(.0). Determinar la media y la varianza de X si los cuantiles son xp, = 
50 y xos = 100 


Una universidad espera recibir, para el siguiente año escolar, 16 000 solicitudes de 
ihgreso al primer año de licenciatura. Se supone que las calificaciones obtenidas por los 
aspirantes en la prueba SAT se pueden calcular, de manera adecuada, por una distribu- 
ción normal con media 950 y desviación estándar 100. Si la universidad decide admitir 
al 25% de todos los aspirantes que obtengan las calificaciones más altas en la prueba 
SAT, ¿cuál es la mínima calificación que es necesario obtener en esta prueba, para ser 
admitido por la universidad? 


Una fábrica produce pistones cuyos diámetros se encuentran adecuadamente clasifica- 
dos por una distribución normal con un diámetro promedio de 5 cm y una desviación es- 
tándar igual a 0.001 cm. Para que un pistón sirva, su diámetro debe encontrarse entre 
4.998 y 5.002 cm. Si el diámetro del pistón es menor que 4.998 se desecha; si es mayor 
que 5.002 el pistón puede reprocesarse. ¿Qué porcentaje de pistones servirá? ¿Qué por- 
centaje será desechado? ¿Qué porcentaje será reprocesado? 


La demanda mensual de cierto producto A tiene una distribución normal con una media 
de 200 unidades y desviación estándar igual a 40 unidades. La demanda de otro produc- 
to B también tiene una distribución normal con media de 500 unidades y desviación es- 
tándar igual a 80 unidades. Un comerciante que vende estos productos tiene en su alma- 
cén 280 unidades de A y 650 de B al comienzo de un mes, ¿cuál es la probabilidad de 
que, en el mes, se vendan todas las unidades de ambos productos? Puede suponerse in- 
dependencia entre ambos eventos. 


. El peso de cereal que contiene una caja se aproxima a una distribución normal con una 


media de 600 gramos. El proceso de llenado de las cajas está diseñado para que de entre 
100 cajas, el peso de una se encuentre fuera del intervalo 590-610 gramos. ¿Cuál es el va- 
lor máximo de la desviación estándar para alcanzar este requerimiento? 


- En una tienda de descuento la demanda diaria de acumuladores para automóvil se cal- 


cula mediante una distribución normal con una media de 50 acumuladores que tienen 


5.12. 


5.13, 


5.14. 


5.15. 


5.16. 
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una desviación estándar de 10. En dos días consecutivos se venden 80 y 75 acumulado- 
res respectivamente. Si estos días son típicos, ¿qué tan probable es, bajo las suposi- 


“ciones dadas, vender 80 o más y 75 o más acumuladores? 


Un fabricante de aviones desea obtener remaches para montar los propulsores de sus 
aviones. El esfuerzo a la tensión mínimo necesario de cada remache es de 25 000 1b. Se 
pide a tres fabricantes de remaches (A, B y C) que proporcionen toda la información 
pertinente con respecto a los remaches que producen. Los tres fabricantes aseguran que 
la resistencia a la tensión de sus remaches se encuentra distribuida, de manera aproxima- 
da, normalmente con un valor medio de 28 000, 30 000 y 29 000 1b, respectivamente. 


a) ¿Tiene el fabricante la suficiente información para hacer una selección? 
¿Por qué? 

b) Supóngase que las desviaciones estándar para A, B y C son 1 000, 1800 y 1200, res- 
pectivamente. ¿Cuál es la probabilidad de que un remache producido ya sea por A, B 
o C no reúna los requisitos mínimos? 

c) Si usted fuera el fabricante de av*>nes, ¿podría elegir entre A, B y C, con base en su 
respuesta al inciso b)? ¿Por qué? 


Un fabricante de escapes para automóviles desea garantizar su producto durante un 


~ periodo igual al de la duración del vehículo. El fabricante supone que el tiempo de dura- 


ción de su producto es una variable aleatoria con una distribución normal, con una vida 
promedio de tres años y una desviación estándar de seis meses. Si el costo de reemplazo 
por unidad es de $10, ¿cuál puede ser el costo total de reemplazo para los primeros dos 
años, si se instalan 1 000 000 unidades? 


El tiempo necesario para armar cierta unidad es una variable aleatoria normalmente 
distribuida con una media de 30 minutos y desviación estándar igual a dos minutos. De- 
terminar el tiempo de armado de manera tal que la probabilidad de exceder éste sea de 
0.02. 


Un periódico llevó a cabo una encuesta entre 400 personas seleccionadas aleatoriamen- 
te, en un estado, sobre el control de armas. De las 400 personas, 220 se pronunciaron en 
favor de un estricto control. 


a) ¿Qué tan probable resulta el hecho de tener 220 o más personas a favor del control de 
armas, si la población en este estado se encuentra dividida en opinión de igual manera? 

b) Supóngase que se encuesta a 2000 personas teniendo la misma proporción de éstas a 
favor del control de armas, que la del inciso anterior. ¿Cómo cambiaría su respuesta 
al inciso a)? 

c) Si el número de personas encuestadas es de 10 000, ¿cuál es la probabilidad de tener 
una ocurrencia diferente a la del inciso b)? 


Una prueba de opción múltiple contiene 25 preguntas y cada una de éstas cinco op- 
ciones. ¿Cuál es la probabilidad de que, al contestar de manera aleatoria cada pregunta, 
más de la mitad de las respuestas sea incorrecta? 


. Una organización llevó a cabo una encuesta entre 1 600 personas, seleccionadas de ma- 


nera aleatoria de toda la población del país, para conocer su opinión con respecto a la 
seguridad en las plantas de energía nuclear. De este grupo, el 60% opinó que las plantas 
de energía nuclear tienen muy poca seguridad. Con base en estos resultados ¿existe algu- 
na razón para dudar que la población en general tiene una opinión neutral con respecto 
a este asunto? 
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5.18. 


5.19. 


5.20. 


5.21. 


5.22. 


5.23. 


5.24. 


5.25. 


5.26. 


Sea X una variable aleatoria distribuida binomialmente. 


a) Para n = 15, p = 0.25 y n = 15 y p = 0.5, calcular las siguientes probabilidades: 
P(X = 8), P(X < 3), P(X = 7), P(X > 9), y P(X > 12). 

b) Aproxímense los valores de las probabilidades anteriores mediante el empleo de la 
distribución normal. 

c) Repetir los incisos 4) y b) para n = 25 y comparar los resultados. 


Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). 


a) ¿Cuál es la probabilidad de que X tome un valor que se encuentre a una desviación 
estándar de la media? 
b) ¿Puede tomar X un valor que se encuentre a dos desviaciones estándar de la media? 


Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). ¿Cuál 
es la máxima distancia, en términos de la desviación estándar, a la que puede encontrar- 
se un valor X a partir de la media? 


Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). Si E(X) 
= 10 y Var(X) = 12, encontrar los valores de a y de b. 


Supóngase que la concentración de cierto contaminante se encuentra distribuida de ma- 
nera uniforme en el intervalo de 4 a 20 ppm (partes por millón). Si se considera como tó- 
xica una concentración de 15 ppm o más, ¿cuál es la probabilidad de que al tomarse una 
muestra la concentración de ésta sea tóxica? 


Sea X una variable aleatoria con distribución beta y parámetros a = 3 y B=1. 


a) Graficar la función de densidad de probabilidad. 

b) Obtener la media, la varianza, la desviación media, el coeficiente de asimetría y la 
curtosis relativa. 

c) ¿Cuál es la probabilidad de que X tome un valor que se encuentre dentro de una des- 
viación estándar a partir de la media? ¿A dos desviaciones estándar? 

d) Determinar los cuantiles de esta distribución. 


Si los parámetros de la distribución beta son enteros, puede demostrarse que la función 
de distribución acumulativa beta se encuentra relacionada con la distribución binomial 
en la siguiente forma: 


n 


[i 
P(X < p) = 1, (a, B) = 2 ERA 


(a a 

en donde n =4 + 8-1 y0<p<l. Si X es una variable aleatoria con una 
distribución beta con parámetros « = 2 y B = 3, emplear la relación anterior para 
obtener P(X < 0.1), P(X < 0.25), y P(X < 0.5). 


Tomando como referencia el ejercicio anterior, determinar la probabilidad de que X 
tome un valor que se encuentre dentro de un intervalo igual a una desviación estándar 
de la media y, posteriormente, de un intervalo igual a dos desviaciones estándar. 


La proporción de unidades defectuosas en un proceso de fabricación es una variable 
aleatoria que se encuentra aproximada por una distribución beta con æ = 1 y 8 = 20. 


a) ¿Cuál es el valor de la media y de la desviación estándar? 
b) ¿Cuál es la probabilidad de que la proporción de artículos defectuosos sea mayor que 
un 10%? ¿Mayor que un 15%? 


5.27. 


5.28. 


5.29. 


5.30, 


5.31. 


5.32. 


5.33, 


5.34, 


5.35. 
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Aproxime su respuesta al inciso b) del ejercicio anterior mediante el empleo de la aproxi- 
mación normal dada por la expresión (5.44). 


La competencia en el mercado de una compañía de computadoras varía de manera alea- 


-toria de acuerdo con una distribución beta con æ = 10 y B = 6. 


a) Graficar la función de densidad de probabilidad. 

b) Encontrar la media y la desviación estándar. 

c) Obtener la probabilidad de que la competencia en el mercado sea menor que la media. 

d) Encontrar la probabilidad de que la competencia en el mercado se encuentre dentro 
de una desviación estándar de la media y, posteriormente, de un intervalo igual a dos 
desviaciones estándar de la media. 


Sea X una variable aleatoria con distribución gama con œ = 2 y 6 = 50. 


a) ¿Cuál es la probabilidad de que X tome un valor menor a! valor de la media? 

b) ¿Cuál es la probabilidad de que X tome un valor mayor de dos desviaciones estándar 
con respecto a la media? 

c) ¿Cuál es la probabilidad de que X tome un valor menor al de su moda? 


Sea X una variable aleatoria con distribución gama y a = 2y ð = 100. 

a) Graficar la función de densidad de probabilidad. 

b) Encontrar la probabilidad de que, primero, X tome un valor dentro de un intervalo 
igual a una desviación estándar de la media y, posteriormente, de un intervalo igual a 
dos desviaciones estándar de la media. 

c) ¿Cómo cambiarían sus respuestas a la parte b) si 9 = 200? 


La edad a la que un hombre contrae matrimonio por primera vez es una variable aleato- 
ria con distribución gama. Si la edad promedio es de 30 años y lo más común es que el 
hombre se case a los 22 años, encontrar los valores de los parámetros æ y 0, para esta 
distribución. 


La información que a continuación se presenta es una tabulación parcial de la función 
gama incompleta tal como se encuentra definida por (5.55) para a = 16. 


u | 2 2.5 3.0 3.5 4.0 4.5 
Ku, 15) | 0.0082 0.0487 0.1556 0.3306 0.5333 0.7133 
u | 5.0 5.5 6.0 6.5 7.0 
Ku, 15) i 0.8435 0.9231 0.9656 0.9858 0.9946 


Para 9 = 10, comparar estas probabilidades con las que se proporcionaron al emplear 
una aproximación normal. 


Mediante el empleo de la función generadora de momentos de la distribución gama, en- 
contrar expresiones para la media y la varianza. 


La duración de cierto componente es una variable aleatoria con distribución gama y pa- 
rámetro a = 2. 

a) Obtener la función de confiabilidad. 

b) Para 0 = 20, obtener la frecuencia de falla y graficarla como una función de £. 
c) Si € = 20, ¿cuál es la confiabilidad del componente en £ = 80? 


Para armar un artículo se necesitan cuatro etapas. Si el tiempo total necesario para ar- 
mar un artículo, en horas, es una variable aleatoria con distribución gama y parámetro 
de escala 9 = 2, ¿cuál es la probabilidad de armar un artículo en menos de 15 horas? 
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5.36. 


5.37. 


5.38. 


5.39. 


5.40. 


5.41. 


5.42. 


5.43. 


5.44. 


5.45. 


5.46. 


Sea X una variable aleatoria con distribución de Weibull y parámetros æ = 2 y8 = 20. 


a) Graficar la función de densidad de probabilidad. 

b) Obtener la probabilidad de que X tome un valor mayor que la media. 

c) Obtener la probabilidad de que X tome un valor que se encuentre en un intervalo 
igual a una desviación estándar, y después en un intervalo igual a dos desviaciones es- 
tándar de la media. 


El tiempo de duración de un sistema se encuentra aproximado por una distribución de 
Weibull con a = 2 y 0 = 50. 

a) Obtener la media y los deciles de esta distribución. 

b) Obtener la confiabilidad de este sistema en ! = 75. 


Un sistema está formado por dos componentes independientes A y B. El sistema perma- 
necerá operando mientras uno o ambos componentes funcionen. Si el tiempo de vida de 
la componente A es una variable aleatoria de Weibull con a = 1/2 y 6 = 10, y si el 
tiempo de vida de B es también una variable de Weibull con œ = 2 y 4 = 12. ¿cuál es la 
probabilidad de que el sistema trabaje más de 20 horas? 


Sea X una variable aleatoria con distribución exponencial. 

a) ¿Cuál es la probabilidad de que X tome un valor mayor que la media? 

b) Cuáles son las probabilidades de que X tome un valor que se encuentre en un interva- 
lo igual a una desviación estándar, primero, y en un intervalo igual a dos des- 
viaciones estándar de la media? 


Si la frecuencia con que falla un componente es constante y la confiabilidad de éste tiene 
un valor en / = 55 de 0.4, 


a) Obtener la función de densidad de probabilidad. 
b) Obtener la confiabilidad del componente para £ = 100. 


Un dispositivo tiene una frecuencia de falla constante k(1) = 107? por hora. 


a) ¿Cuál es la confiabilidad del dispositivo para £ = 200 horas? 
b) Si 500 de estos dispositivos fallan de manera independiente, ¿cuál es el número espe- 
rado de fallas entre éstos, después de 200 horas? 


El compresor de una unidad de aire acondicionado tiene una frecuencia de falla A(t) = 
2 x 107%. por hora. 


a) ¿Cuál es la función de confiabilidad del compresor? 

b) ¿Cuál es la confiabilidad del compresor para £ = 15 000 horas? 
c) ¿Cuál es la vida media del compresor? 

d) ¿Cuál es la mediana de su duración? 


Sea X una variable aleatoria con distribución uniforme en el intervalo (0, 1). Demostrar 
que la variable aleatoria Y = —2In(X) tiene una distribución chi-cuadrado con dos 
grados de libertad. 


Si X es una variable aleatoria con una distribución exponencial y parámetro 0, obtener 
la distribución de Y = (X — 0y/8. 


Si X es una variable aleatoria con una distribución de Weibull y parámetros a y 6, obte- 
ner la distribución de Y = X°. 


Seleccione una distribución de probabilidad discreta y una continua de la sección 5.9 y 
genere dos muestras aleatorias de 50 números aleatorios cada una. Para cada caso agru- 
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pe los datos y obtenga las frecuencias relativas. Calcule la media y la desviación estándar 
de cada una de las muestras y compare los resultados con los que se obtienen de manera 
teórica. 


Ñ 


APÉNDICE 
Demostración de que la expresión (5.1) es una función de densidad de probabilidad. 


El que la función sea.no negativa se satisface, ya que f(x; u, 0) > 0 para -œ < x 
<æ, -e<pup<oxo y a >0. Para demostrar que: 


S ja: u, o)dx = 1, 
sea; 


1 i 3 a$. 
I= zl "E ~ piro as 


el valor de la integral y aplíquese la transformación lineal y = (x — u)/a de ma- 
nera tal que x = gy + u y dx = ody. Esto da como resultado: 


1 k A 
I = == - y /2dy. 
Vin __expt- y /2)dy 


Si puede demostrarse que 1? = 1, puede deducirse que 7 = 1 puesto que f(x; m, 
©) tiene una valor positivo. De acuerdo con lo anterior: 


x 


1 1 ğ 5 
P = Van z exp(— y*/2)dy E zl exp(— 2"/2)dz 
pan T —A 


1 zx a 
E 2-1 Í se| -0 + o2 Jay, 
2r J-e J-< 


en donde se ha escrito el producto de las dos integrales como una doble integral ya 
que las funciones de z son constantes con respecto a y y viceversa. Al cambiar de 
coordenadas rectangulares, representadas por x y y, a coordenadas polares r y 8, en 
donde y = r cos 0 yz = rsen 60. Esto es: 


y +z? = r° cos 8 + rósen” 6 = r’, 


y el elemento de área dydz, en coordenadas rectangulares se reemplaza por rdrd6 en 
coordenadas polares. Dado que los limites (—=, x) tanto para y como para z gene- 
ran el plano completo yz, el plano correspondiente a r y a O se genera mediante el 
empleo de los límites (0,27r) para 0 y (0,x) para r. De esta forma se tiene: 


saa T ; 
[= a [ exp( —r*/2)rdrd0 
277 Jo ) 


0 
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1 27 [ 3 
a de |, exp(=r*/2)rdr 


2r 


- [—exp(—r?/2)] 
0 


æ 


0 


y, por lo tanto, (5.1) es una función de densidad de probabilidad. 


APÉNDICE 


Demostración del teorema 5.1 


La demostración que aquí se presenta se basa en el hecho de que una función genera- 
dora de momentos define, de manera única, a una distribución. Se demostrará que 
la función generadora de momentos de Y tiende a una distribución normal conforme 
n>x. X es una variable aleatoria binomial: 


m(t) = [0 — p) + pef. 
Entonces: 


mið = E(e”) = rf exp] 1x — np)/Vnp(l — 5|} 
= exp| -npr Vapi - J rl exp 1x7 Vit - a |). 


donde rl exp] x JNnp(i — 5|} es la función generadora de momentos de X con 


argumento t/Vnp(1 — p). De esta forma se tiene: 


m(t) = exp| -np1/ Vit ne Pla =p) + p exp| UNIR ES 5|} ; 
pero: 


exp| =np1/ Vap 5 5| = [| -pva - 5|} 
m(t) = fa = piexp| 01 Vi = z| 
Da | E 1 
CP pi =p) Vap — p) 


= fa - pjexp| p/v - 7] 
+ poro -pM/Vnpl — D|) ; 
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En la última expresión, al expander ambas funciones exponenciales en una serie 
de potencias, se tiene: 


lea La 2 
-pp 0 ppt 


(£ - pexa -p/a 3 J =(l-p)- Vap — p)  2apll — p) 


EE 


a 1 k/2 
+ términos en (— (£) ; k 
n 


Z 2 
O- ppt , pt 


is OE 
er 


1 k/2 
+ términos en c(i) ; k = 3,4, ... 


Z a Haz 
o (l — p)pt FEL py pt 


pela = pMIVIPA — 5| = Vnp(l — p) 2np(l — p) 


k/2 
+ términos en (3 ; k=3,4,... 


a-pe U- p)? 


= p + 
Vnp(l — p) 2n 


k/2 
+ términos en (3) i k=3,4,.... 
n 
Al sustituir los resultados anteriores en m,(f) y agrupar términos, 


P k/2 |n 
my(t) = |: + T + términos en (5 | A k=3,4,.... 


Dado que todos los términos que contienen a (1/n)?, k = 3, 4, ..., tienen ex- 
ponentes mayores que uno, puede factorizarse el termino 1/n. De esta forma se tiene 


que: 
ji e 1 (4-2/2 n 
my(t) = fi + E + términos en (5 h 3 k= E A 
n| 2 n 


Por definición: 
uN” 
im{1 +-] = e"; 
ASS n 


entonces, conforme n — œ, la última expresión para m, (t) es idéntica a esta forma, 
con u representando a todo lo que se encuentra entre paréntesis de esta expresión. 
Pero conforme n — oo, todos los términos de u, excepto el primero, tienen un valor 
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de cero, dado que todos tienen potencias positivas de n en sus denominadores. De 
acuerdo con lo anterior. 


lim m,(t) = exp(1”/2), 


n—x 


que es la función generadora de momentos de la distribución normal estándar. 


CAPÍTULO SEIS 


Distribuciones conjuntas 
de probabilidad 


6.1. Introducción 


En los capítulos anteriores se consideraron conceptos probabilísticos tomando en 
cuenta una variable aleatoria a la vez. Sin embargo, muchas veces resulta de interés 
medir más de una característica de algún fenómeno aleatorio. Por ejemplo, en un 
proceso de producción en el que se tiene determinado número de artículos produci- 
dos en un tiempo definido, es muy común que el interés no sólo recaiga en el número 
de artículos que se encuentran listos para su venta inmediatamente después de su 
fabricación, sino también en el número que, después de reprocesarse, cae en la 
categoría anterior o en el número de artículos que serán desechados. Otro ejemplo 
puede ser que, al estudiar la contaminación del agua en general, se mida la con- 
centración de varios contaminantes presentes en ésta. De los ejemplos anteriores sur- 
ge la necesidad de estudiar modelos de probabilidad que contengan más de una va- 
riable aleatoria. Estos modelos reciben el nombre de modelos multivariados, mientras 
que los modelos con una sola variable reciben el nombre de univariados. En este capí- 
tulo se examinarán conceptos generales para distribuciones de probabilidad discretas y 
continuas con dos variables aleatorias. La extensión de estos conceptos a un mayor 
número de variables aleatorias resulta directa. 


6.2 Distribuciones de probabilidad bivariadas 
En esta sección se considerarán las definiciones pertinentes para distribuciones, tan- 
to discretas como continuas, de dos variables aleatorias. 
Definición 6.1 Sean X y Y dos variables aleatorias discretas. La probabilidad de 


que X = xy Y = y está determinada por la función de probabilidad bivariada 


p(x, v) = P(X = x, Y = y), 
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en donde p(x, y) > 0 para toda x, y, de X, Y, y 2,2,p(x, y) = 1. La suma se 
efectúa sobre todos los valores posibles de x y y. 


Con base en la definición 6.1, la función de distribución acumulativa bivariada 
es la probabilidad conjunta de que X < x y Y < y, dada por 


F(x, y) = AX <x, Y< y) = Y, Y px, y). (6.1) 


Xx Ex y¡Sy 


La expresión anterior es una extensión del caso univariado. La función de probabili- 
dad conjunta de dos variables aleatorias da origen a las probabilidades puntuales 
conjuntas, y la función de distribución bivariada es una función escalonada cre- 
ciente para cada probabilidad puntual distinta de cero, de manera tal que X = x y 
Y = y. 


Ejemplo 6.1 Con base en la experiencia se sabe que la proporción de unidades úti- 
les producidas por un proceso de manufactura es p, y las proporciones de unidades 
envíadas a reprocesar y desechadas, son p» y P, respectivamente. Si se supone que el 
número de unidades que se produce en un lapso dado es n y que además éstas consti- 
tuyen un conjunto de ensayos independientes de manera que P, + Ppa + p= l, 
desarrollar una expresión para la probabilidad de tener, de manera exacta, x,, x, y 
x, unidades útiles, reprocesables y desechadas, respectivamente. 


Lo que se pide es una extensión de la distribución binomial univariada. A pesar 
de que existen tres resultados mutuamente excluyentes (útil, reprocesable y desecha- 
do), sólo es necesario definir dos variables aleatorias dado que, para cualquier nú- 
mero específico de cada una, la suma de las tres es n. Por consiguiente, sean X y Y las 
variables aleatorias que representan el número de unidades útiles y reprocesables, 
respectivamente, del total de unidades n. De esta manera, si X = x y Y = y, en- 
tonces el número de unidades que deben desecharse es n—x — y. Por la hipótesis de 
independencia, la probabilidad de tener una secuencia específica de resultados es 


PPRA — pi- hY”. 


Dado que existen n!/[x!ty(n — x — y)!] formas igualmente probables para que 
ocurra una secuencia de resultados específica, la probabilidad conjunta de tener, de 
manera exacta, x, y, y n~ x— y unidades útiles, reprocesables y desechadas, respecti- 
vamente, es 


n. E y EN E NX=Y 
ayagi Pi p2) ; 


x,y =0,1,2,...,, (6.2) 


p(x, y; n, Pi, P2) = 


en donde pz = 1 — pı — Pı. La expresión (6.2) es la función de probabilidad 
conjunta de lo que se conoce como la distribución trinomial. Los parámetros de esta 
distribución son n, p, y p,, dado que p se determina de manera exacta si se conocen 
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pi y p2 La distribución trinomial se ha aplicado, de manera extensa, a situaciones en 
que existen tres resultados distintos, como en las encuestas sobre la preferencia del 
consumidor en relación a tres marcas comerciales o en encuestas de tipo político en 
que se pide la opinión con respecto a tres candidatos. 

Si existen k resultados distintos excluyentes con probabilidades pı, P2, ... Pk, 
respectivamente, entonces para n ensayos independientes, la distribución trinomial 
se generaliza para originar la distribución multinomial cuya función de probabilidad 
es: 


n! 


k 


PXI, X2, 005 Xk- 13 R, Pis Das +s Pk-1) = A PYP? pr 
XXi cc. Xg 


x,=0,1,2,....n fori= 1,2,...,k, (6.3) 
en donde xy = n — X= X=“ = X1 Y Pk = l- Pp P="" O Pros 


Definición 6.2 Sean X y Y dos variables aleatorias continuas. Si existe una función 
F(x, y) tal que la probabilidad conjunta: 


Ñ b fd 
P(a<X<b,c<Y<d) = || f(x, y dydx 


para cualquier valor de a, b, c, y den donde f(x, y) > 0, —- w< x, y < 0, y 
Jofa f(x, yidydx = 1, entonces f(x, y) es la función de densidad de probabili- 
dad bivariada de X y Y. 


La función de densidad de probabilidad de dos variables aleatorias continuas X y 
Y es una superficie en el espacio de tres dimensiones donde el volumen por debajo de 
ésta y por encima de un rectángulo específico a < X < b yc < Y < desigual a la 
probabilidad de que las variables aleatorias tomen valores iguales a los puntos que se 
encuentren dentro del rectángulo. 

La función de distribución bivariada acumulativa de X y Y es la probabilidad 
conjunta de que X < x y Y < y, dada por: 


P(X < x, Y < y) = F(x, y) = Pr vdvdu. (6.4) 


Por lo tanto, la función de densidad bivariada se encuentra diferenciando F(x, y) con 
respecto a x y y; es decir, 


_ Fx, y) 
fx, NE E (6.5) 


Ejemplo 6.2 Sean X y Y dos variables aleatorias continuas con función de densi- 
dad de probabilidad conjunta dada por: 


(x+ y) 0=xy<l, 


f(x, y) = | 


0 para cualquier otro valor 
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Graficar la función de densidad de probabilidad conjunta, determinar la función de 
distribución acumulativa somonni y obtener la O conjunta de que X < 
1/2 y Y < 3/4. l 


La gráfica de la función de densidad conjunta se ilustra en la figura 6.1. Nótese 
que f(x, y)es una fpei a de densidad de probabilidad conjunta, dado que 


[sees e a f (or ue 


Entonces 


F(x, y) = ffo + v)dvdu [ (w pe 2Ja = xy(x + y)/2, 0O<x,y<l. 


De «sta “orma se tiene 


F(1/2, 3/4) = ABE + 3) = 15/64 
Además 
o9F(x, y) — y 
ae A + 3 
f(x, y) 


FIGURA 6.1 Gráfica de la función de densidad conjunta f(x, y) = x + y 
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ə F(x, y) _ 


+ y = f(x, y). 
ax dy x + y = f(x, y) 


6.3 Distribuciones marginales de probabilidad 


Es posible determinar varias distribuciones marginales para cualquier distribución 
de probabilidad que contenga más de dos variables aleatorias. Por ejemplo, si X y Y 
son variables aleatorias discretas, la suma de la función de probabilidad bivariada 
sobre todos los valores posibles de Y dará origen a la función de probabilidad univa- 
riada de X. Por otro lado, si X y Y son variables aleatorias continuas, la integración 
de la función de densidad de probabilidad bivariada sobre el intervalo completo de 
variación de Y generará la función de densidad de probabilidad univariada de X. De 
acuerdo con lo anterior, se formulan las siguientes definiciones: 


Definición 6.3 Sean X y Y dos variables aleatorias discretas con una función de 
probabilidad conjunta p(x, y). Las funciones marginales de probabilidad de X y 
de Y están dadas por. 


Px(x) = Y, px, y) 
y 
prO) = Y) pk, y), 
respectivamente. 


Definición 6.4 Sean X y Y dos variables aleatorias continuas con una función de 
densidad de probabilidad conjunta f(x, y). Las funciones de densidad de probabili- 
dad de X y de Y están dadas por 


fx(x) = Pro y)dy 


fro) = P fx, y)dx, 
respectivamente. 


Para variables aleatorias continuas conjuntas, si se conoce la función de distribu- 
ción acumulativa F(x, y), las distribuciones acumulativas marginales de X y Y se ob- 
tienen de la siguiente forma: 


P(X < x) = Fx(x) = k Pro y)dydt, 
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y 
Esto = | _fDdi = F, (6.6) 


De manera similar 
y x y : 
P(Y < y) = Fy(y) = P. Pro dxdt = Pros ='F(o, y). (6.7) 


Así puede determinarse la distribución acumulativa marginal de X dejando que 
Y tome un valor igual al límite superior de la función de distribución conjunta de X 
y Y. 


Ejemplo 6.3 Sean X y Y dos variables aleatorias continuas con una función de den- 
sidad de probabilidad conjunta: 


3x(l — xy) 0<x, y<1l, 
FG, y) - 


0 para cualquier otro valor. 


Obtener las distribuciones de densidad marginal y acumulativa de X y Y. 
La función de densidad marginal de X es 


9.) ! 
- linde AN Y za 
fx(x)=3 [ x(l — xy)dy = 3 (o > ) | 3x ( 5). 


De manera similar para Y 


= (3 — 2y)/2. 


0 


i oa 
fro) = Ji x(l — xy)dx = (5 Z 2) 


La distribución acumulativa conjunta de X y Y es 


xX 2.2 
3| (w ¿1% Ja 
0 2 


= x%y(3 — xy)/2, 0=<x ysl. 


ll 


F(x, y) = 3 K u(l — uv)dvdu 


Por lo tanto, las distribuciones acumulativas marginales de X y Y están dadas por 


Fdo = Fo D= B- 0/2, 0<x<l, ! 


Fy(y) = F(l.y) = x8 - y)/2, 0<ys1, 


respectivamente. 
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y 
A: 
Fr(x) = | fx(tdt = F (x, %). (6.6) 


De manera similar 
P(Y < y) = Fy(y) = D Pra t)dxdt = Proa ='F(o, y). (6.7) 


Así puede determinarse la distribución acumulativa marginal de X dejando que 
Y tome un valor igual al límite superior de la función de distribución conjunta de X 
y Y. 


Ejemplo 6.3 Sean X y Y dos variables aleatorias continuas con una función de den- 
sidad de probabilidad conjunta: 


3x(1 — xy) 0=<xysl, 
| 


para cualquier otro valor. 


Obtener las distribuciones de densidad marginal y acumulativa de X y Y. 


La función de densidad marginal de X es 


i 22 


De manera similar para Y 


= (3 — 2y)/2. 


0 


y 2 3 
FO) = F x(l — xy)dx = (5 -2) 


La distribución acumulativa conjunta de X y Y es 


X 22 
u y 
Ji (w > Jas 


= xy(3 — xy)/2, 0sxysl. 


1l 


F(x,y) = 3 Ll u(l — uv)dvdu 


Por lo tanto, las distribuciones acumulativas marginales de X y Y están dadas por 


F(x) = F(x, D=x%G — x)/2, 0s<x<l, 


Ey) = F, y) = x83 — y)/2, 0=y<l, 


respectivamente. 
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6.4 Valores esperados y momentos para distribuciones bivariadas 


En esta sección se tratarán los conceptos de valor esperado y momentos para distri- 
buciones conjuntas de probabilidad. 


Definición 6.5 Sean X y Y dos variables aleatorias que se distribuyen conjunta- 
mente. El valor esperado de una función de X y de Y, g(x, y), se define como 


Elg(X, Y)] = YY, g(x, y)p(x, y) 


x y 


si X y Y son discretas, o 
Elg(X, 1] = Í a fea, yfx, y dy dx 


si X y Y son continuas, en donde p(x, y)y f(x, y)son las funciones de probabilidad y 
de densidad de probabilidad conjuntas, respectivamente. 


Sin pérdida de generalidad, se restringirá la presentación al caso continuo. 
Como consecuencia de la definición 6.5, el r-ésimo momento de X alrededor del cero 
es 


E(X”) = ¡A x f(x, ydydx 
2 9 Xx Fylxidx. (6.8) 
De manera similar 
E(Y") = D y'fr(y)dy. (6.9) 
El r y s-ésimo momento producto de X y Y alrededor del origen es: 
E(X Y”) = en xy f(x, ydydx, (6.10) 
y alrededor de las medias es 
EX — px (Y — uy} = ¡EA (x = uy) (y — ay f(x, yidydx, (6.11) 


en donde r y s son enteros, no negativos. Nótese que el r-ésimo momento de X alre- 
dedor del cero se obtiene de (6.10) con s = 0. De manera similar, el r-ésimo momen- 
to central de X puede determinarse a partir de (6.11) con s = 0. 

De particular importancia es el momento producto alrededor de las medias cuan- 
dor = s = 1. Este momento producto recibe el nombre de covarianza de Xy Y, y se 
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encuentra definido por 
Cov(X, Y) = EĻ(X — xY — uy). (6.12) 


Al igual que la varianza, que es una medida de la dispersión de una variable aleato- 
ria, la covarianza es una medida de la variabilidad conjunta de X y de Y. De esta 
forma, la covarianza es una medida de asociación entre los valores de X y de Y y sus 
respectivas dispersiones. Si, por ejemplo, se tiene una alta probabilidad de que valo- 
res grandes de X se encuentren asociados con valores grandes de Y, la covarianza 
será positiva. Por otro lado, si existe una alta probabilidad de que valores grandes de 
X se encuentren asociados con valores pequeños de Y o viceversa, la covarianza será 
negativa. Se demostrará posteriormente que la covarianza es cero si X y Y son 
estadisticamente independientes. 
Desarrollando el miembro derecho de (6.12) se tiene 


EX — ¿MY — ny) = ElXY — Xuy — Yux + uxyay) 


= E(XY) — MrMy: 
de esta forma 
Cov(X, Y) = E(XY) — E(X EY). (6.13) 


Si la covarianza de X y de Y se divide por el producto de las desviaciones están- 
dar de X y de Y, el resultado es una cantidad sin dimensiones que recibe el nombre 
de coeficiente de correlación y que se denota por p(X, Y):* 


p(X, Y) = Cov(X, V)/7,0y. (6.14) 


Se puede demostrar que el coeficiente de correlación se encuentra contenido en el in- 
tervalo — 1 < p < 1. De hecho p es la covarianza de dos variables aleatorias estan- 
darizadas X” y Y' en donde X’ = (X — uy)/0x y Y' = (Y — uy)/a y. Esto sig- 
nifica que el coeficiente de correlación es sólo una medida estandarizada de la aso- 
ciación lineal que existe entre las variables aleatorias X y Y en relación con sus 
dispersiones. El valor p = 0 indica la ausencia de cualquier asociación lineal, 
mientras que los valores — 1 y + 1 indican relaciones lineales perfectas negativa y 
positiva, respectivamente. En este punto es necesario señalar que debe rechazarse 
cualquier otra interpretación de la palabra ““correlación””. Después se expondrá con 
detalle el coeficiente de correlación cuando se estudie el análisis de regresión. 


Ejemplo 6.4 Sean X y Y dos variables aleatorias con una función de densidad con- 
junta de probabilidad. 


5 
Z(x + exp) x>0 0<y<l, 


Ax. y = 
0 para cualquier otro valor. 


* Se omitirá la identificación de las variables aleatorias cuando sea necesario. 


6.4 Valores esperados y momentos para distribuciones bivariadas 


Obtener la covarianza y el coeficiente de correlación de X y de Y. 


Si se toman los valores esperados apropiados, se tiene 


E(X) 


E(X?) 


E(Y) 


EY?) 


2 xrl 

Z e + meros 
2 i > 

dl (x7 + x/2) exp(— x)dx 


2173 ” 
A x exp(—x)dx + If x exp (- x)dx 


3 Jo 3 Jo 
213) TQ) 

CE 
5/3: 


ref 
A f (è + xy) expl—x)ddydx 


x 


2” J 
eN 3 Em E 2 E 
3 f x’ expl —x)dx + 3 Ja * exp(—x)dx 


21 (4) 4 FG) 
3 3 
14/3; 


2 xrl 
a | (xy + y”) expl— x)dydx 


1 Í l a 2 | 
3), x exp(—x)dx + Ar expl — x)dx 


a prp! 
z | Í Qy? + y`) expl —x)dydx 
Fdo Jo 


Pon f 
aY exp( —vidx + Z Jo expl — v)dx 
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2r aiaa 
E(XY) = ai (xy + xy?) expl— x)dydx 


x 


If 2 
= A x? exp(—x)dx + 4 x expl — x)dx 


3 Jo 
2 ro) X 2T(2) 
3 9 
= 8/9. 


Por lo tanto 
Cov(X, Y) = E(XY) — E(X)E(Y) = 8/9 — (5/3X5/9) = -1/27. 


Dado que 
Var(X) = E(X*) — E(X) = 17/9 


Var(Y) = E(Y°) — EXY) = 13/162, 
el coeficiente de correlación es 
— 1/27 


e a * SE — 0.0951. 
V(17/9(13/162) 


p(X, Y) = 


6.5 Variables aleatorias estadísticamente independientes 


En el capítulo dos se mencionó que dos eventos son estadísticamente independientes si 
su probabilidad conjunta es igual al producto de sus probabilidades marginales. En esta 
sección se extenderá el concepto de independencia a variables aleatorias. A fin de asegu- 
rar la consistencia de la definición debe insistirse que para variables aleatorias estadís- 
ticamente independientes, la probabilidad conjunta Pla < X < b,c < Y< d) 
es igual al producto de las probabilidades individuales P(a < X < b) y Plc < Y < d). 
En este punto se proporciona la siguiente definición: 


Definición 6.6 Sean X y Y dos variables aleatorias con una distribución conjunta. 
Se dice que X y Y son estadísticas independientes si y sólo si, 


p(x. y) = pxlLo)prly) si X y Y son discretas 
o bien | 
AX. y) =£0fY) si X y Y son continuas, 


para toda x y y, en donde p(x, y) y f(x, y) son las funciones bivariadas de probabili- 
dad y de densidad de probabilidad, respectivamente, y en donde Px(x), py(y), fx(x), 
y fr(y) son las funciones de probabilidad marginal o de densidad de probabilidad 
marginal apropiadas. 


DR ie 
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Se desprende de esta definición que si X y Y son estadísticamente independientes, 
la probabilidad conjunta 


b fd 
Pla<X<b,c<Y<d)= Fl Fx, yidydx 
bd ~ 
= Í Í ICO dy dx 


b d 
= | fxdx f Sid 
= Pla < X< b)P(c < Y < d). 


Para la misma condición, 


E(XY) = Í 5 j $ xyf(x, y dydx 
= Í a Í i xyfx)fy(y)dydx 


= Í Ax Qodx Foros 
= E(X)E(Y). 


Si X y Y son estadísticamente independientes, entonces Cov(X, Y) = p(X, Y) = 0. 
Sin embargo debe hacerse hincapié en que la proposición inversa no es cierta. Es 
decir, una covarianza igual a cero no es una condición suficiente para asegurar la in- 
dependencia entre variables aleatorias. Debe notarse que si X y Y no son estadística- 
mente independientes, son estadísticamente dependientes. 

Se establecerán algunos resultados útiles con base en las definiciones 6.5 y 6.6. 
Sean X y Y dos variables aleatorias continuas con una función de densidad conjunta 
de probabilidad f (x, y). 

El valor esperado de una función lineal de X y Y es 


j 


ElaX + bY) i f (ax + by) fix, vidydx 


Il 


a r f xfx. yidydx + b f e A vf(x. yidydx 


a E(X) + bE(Y) (6.15) 


para cualquier valor de las constantes a y b. 
La varianza de una función lineal de X y Y es 


VartaX + bY) = Elax + bYY — ElaX + bY) 
= EaX? + 2abXY + PY?) — laE(X) + bEOOY 
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=@ E(X?) + 2abE(XY) + PE(Y) 
— @E?(X) — 2abE(X)E(Y) — ÞE’ (Y) 
= @ Var(X) + bVar(Y) + 2abCov(X, Y). (6.16) 


Como consecuencia de los resultados anteriores, se tiene que el valor esperado de 
la suma de X y Y es la suma de los correspondientes valores esperados de X y Y, y la 
varianza de la suma de X y Y es igual a la suma de las respectivas varianzas más 
la covarianza de X y Y. Además, si X y Y son estadisticamente independientes. 


VaríaX + bY) = a*Var(X) + b*Var(Y). (6.17) 


La generalización de estos resultados a n variables aleatorias se hace por inducción y 
se establece en el siguiente teorema: 


Teorema 6.1 Sean X,, X,,..., X, n variables aleatorias con una función de den- 
sidad conjunta de probabilidad f(x,, X3, ..., x,). Entonces 


[aex] 
1 


È aiVar(X) + Y, Y a1,Cov(X,, X) 
i=1 


i=l j=l 


] 
M: 


[3 ax]- 


Var È ax] 
i ¡Aj 


para cualquier constante a,, i = 1,2, ..., n. 


Ejemplo 6.5 Un vendedor obtiene sus ingresos mediante la venta de dos productos 
distintos. Por experiencia sabe que el volumen de ventas de A no tiene ninguna in- 
fluencia sobre el de B. Su ingreso mensual es el 10% del volumen, en dólares, del 
producto A y el 15% del volumen de B. Si en promedio las ventas del producto A 
ascienden a $10 000 con una desviación estándar de $2 000 y las de B a $8 000 con 
una desviación estándar de $1 000, obténgase el valor esperado y la desviación están- 
dar del ingreso mensual del vendedor. 


Sean X y Y dos variables aleatorias que representan el volumen de ventas en dó- 
lares de los productos A y B, respectivamente. Por hipótesis: 


E(X) = 10000, d.e(X) = 2000: E(Y) = 8000, d.e.(Y) = 1 000. 
De esta forma se tiene l 
E(0.1X + 0.15Y) = 0.1 E(X) + 0.15 E(Y) = $2 200, 


Var(0.1X + 0.15Y) = 0.01 Var(X) + 0.0225 Var(Y) = 62 500. 


La desviación estándar es de $250. 


6.6 Distribuciones de probabilidad condicional 197 


6.6 Distribuciones de probabilidad condicional 


Supóngase que un tanque de agua contiene dos contaminantes. Sean X y Y dos varia- 
bles aleatorias que representan el nivel de estos contaminantes en una porción del tan- 
que que a su vez se encuentra representada por una superficie rectangular. Supónga- 
se que el nivel observado de concentración de Y es y, pero no se observa X. Si se conoce 
la furición de densidad conjunta de probabilidad f(x, y), se necesita obtener una 
función que proporcione la probabilidad de que el nivel de concentración de X esté 
contenido en un intervalo (a, b) dado el valor observado de Y. Considere la función 


FONO), 


en donde f,(y) es la densidad marginal de Y. Si se mantiene constante a la variable 
aleatoria Y en el valor observado y de manera tal que f,(y) > 0. entonces fix. y)/fy 
(y) define una función no negativa de X cuya integral es 1, dado que por definición 


T fay) y 


mo a. Hr, ydx = ANI y) 


De esta forma, f(x, y)/fy(y) es una función de densidad de probabilidad y la pro- 
babilidad de que a < X < b, dado que el nivel de concentración de Y es y, está 
dada por: 


° fix, y) 
Pa <X<b\y) = | a. (6.18) 
a fy(y) 
Definición 6.7 Sean X y Y dos variables aleatorias con una función de densidad 
conjunta de probabilidad f(x, y). La función de densidad de probabilidad condi- 
cional de la variable aleatoria X, denotada por f(x | y), para un valor fijo y de Y, 
está definida por 


fly = fx, fr), 


en donde f,(y) es la función de densidad de probabilidad de Y de manera tal que 
fry) > 0. 


De manera análoga, la función de densidad de probabilidad condicional de Y 
para un valor fijo x de X se define como 


fold = faya f>, (6.19) 


en donde f(x) es la densidad marginal de X. Puede pensarse a f(x | y) como una 
función que da la densidad de probabilidad a lo largo de una línea horizontal en el 
plano (x, y) correspondiente a un valor fijo y de Y. De manera similar, fíy | x) es 
una función que da la densidad de probabilidad a lo largo de una línea vertical en el 
plano (x, y) correspondiente a un valor x de X. 
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Nótese que si la densidad condicional f(x | y) por ejemplo, no contiene a y, en- 
tonces X es estadísticamente independiente de Y. Esto es, si X y Y son estadística- 
mente independientes, entonces ` 


fx, y) = Lit y) 


Faly) = NU) 

= fS Y) 

= f(x). 
De manera similar, si 

f y) = Sffr), 
entonces 
FOLO = ffA yf 
= fy(y). 


Los valores esperados condicionales se definen de manera análoga a la señalada 
en la definición 6.5. Por ejemplo, los valores esperados condicionales de X puesto 
que Y = y, y de Y, ya que X = x, se definen como 


E(X | y) = f falva 
y (6.20) 


E(Y|x) = Poyo Los, 


respectivamente. El valor esperado de X dado y es una función del punto fijo y y re- 
presenta la media de Xa lo largo de la línea correspondiente a y. Por simetría, el va- 
lor esperado condicional de Y dado x es una función de x y representa la media de Y 
a lo largo de la linea correspondiente a x. De manera similar, 


Var(X | y) = EX |y) - EXX |y) 
y (6.21) 
Var(Y |) = EY? |x) — EY | x). 
en donde 
EX? |y) = | ESOS 
y (6.22) 


EY? |x) = Í Loy. 


E 
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Ejemplo 6.6 . Sean X y Y los niveles de concentración en ppm de dos contaminantes 
en una determinada porción de un tanque de agua. Si la función de densidad conjun- 
ta de probabilidad está dada por ` 


- f(x + y)/8000 0<x,y< 20, 
ER i 


0 para cualquier otro valor, 


y si el nivel de concentración observado de Y es de 10 ppm, obtener la probabilidad 
de que el nivel de concentración de X sea, a lo más, 14 ppm. Obtener la media y la 
varianza condicional de X para Y = 10 ppm. 


Dado que 
fix, y) = (x + y)/8000  0<x, y< 20, 


se tiene 
1 20 
FAN = 2000), E + Pd = (y + 10)/400, 
y la densidad de probabilidad condicional de X es 
f(x] y) = œ + y)/20(y + 10), 
la que se reduce a 


fx | Y =10) = (x + 10)/400 


para Y = 10. Por lo tanto, 


14 
P(X < 14| Y = 10) = | fa] Y = 10)dx 


14 


1 
= 400 ò (x + 10)dx 


= 0.595. 


Para la media y varianza condicional de X en Y = 10 se tiene 
20 
E(X | Y = 10) = [ xfx | Y = 10)dx 


1 20 
= SÍ (x? + 10x)dx 


11.67; 


20 
Í xf (x| Y = 10)dx 


0 


E(X? | Y = 10) 
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O AO 
-5f (A + 10x?)dx 


ii 


166.67; 
30.56. 


Var(X | Y = 10) 


6.7 Análisis bayesiano: las distribuciones a priori y a posteriori 


Se estableció en la sección 2.8 el teorema de Bayes para probabilidades condicionales 
de eventos discretos. En este contexto se examinará de manera breve cómo emplear- 
lo para modificar el grado de creencia con respecto a los resultados de un fenómeno 
al tenerse nueva información de éste. Sin embargo, es más importante la representa- 
ción que proporciona el teorema de Bayes para la distribución condicional de una 
variable aleatoria ya sea ésta cotinua o discreta. Tal representación es importante de- 
bido a que, como se verá en el capítulo 8, proporciona el mecanismo necesario sobre 
el cual se basa la inferencia bayesiana. En esta sección se examinarán los conceptos 
de distribución a priori y distribución a posteriori y se volverá a plantear el teorema de 
Bayes con estos conceptos. 

Sea Y una variable aleatoria (discreta o continua) definida de manera tal que sus 
valores representan las posibles opciones en que puede ocurrir un fenómeno aleato- 
rio antes de llevar a cabo un experimento. El grado de creencia del investigador con 
respecto a estas posibilidades se encuentra expresado por una función de probabili- 
dad py(y), que recibe el nombre de función de probabilidad a priori de Y, si Y es 
discreta, o una función de densidad f,( y), denominada función de densidad de pro- 
babilidad a priori de Y, si Y es continua. La especificación de la forma de py(y) o 
Ffy( y) depende de la convicción del investigador con respecto a los valores de Y antes 
de que la información muestral se encuentre disponible. Esta convicción se puede 
basar en cualquier tipo de información que se encuentre disponible, incluyendo el 
juicio subjetivo. Sea f(x | y) la función de densidad de probabilidad condicional de 
cualquier variable aleatoria X*, la cual representa evidencia muestral en función 
de una alternativa fija y de Y. La función f(x | y) recibe el nombre de función de 
verosimilitud debido a que representa el grado de concordancia del resultado 
muestral x, dado el valor y de Y. 

Cuando la información a priori con respecto a los valores de Y se combina con la 
información que proporcionó la muestra, el resultado es un conjunto de información 
modificada con respecto a la variable aleatoria Y. En otras palabras, la combinación 
de la distribución a priori y de la función de verosimilitud origina una distribución 
condicional para Y, dado el resultado muestral, que se conoce como la distribución a 
posteriori de Y. Esta combinación se hace de acuerdo con el teorema de Bayes, mismo 
que se replantea de la siguiente forma: 


Teorema 6.2 Sea py(y) o fy(y) la función de probabilidad o de densidad de pro- 
babilidad a priori de Y, respectivamente, y sea f(x | y) la función de verosimilitud. 


* Se supone que la variable aleatoria X es continua aunque también puede ser discreta. 
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Entonces la probabilidad a posteriori o función de densidad de probabilidad a poste- 
riori de Y dada la evidencia muestral x, es 


fal Dp) 


5 Tele) si Y es discreta, (6.23) 
Y 
Y 


po lx = 


SALIA) 
Sa ¡yA O0Ndy 


si Y es continua. (6.24) 


flo = 


La función de probabilidad a posteriori p(y | x) o la función de densidad de 
probabilidad a posteriori f(y | x) reflejan el grado de creencia modificado del inves- 
tigador con respecto a la variable aleatoria Y después de obtener información mues- 
tral. Dado que esta información se puede verificar de manera periódica, puede 
adoptarse fácilmente un punto de vista secuencial. En este contexto, la distribución 
a posteriori actual puede convertirse, en un futuro, en una distribución a priori 
cuando sea necesario llevar a cabo otra revisión con respecto a la variable aleatoria. 
La revisión periódica de las probabilidades se hace posible mediante el empleo suce- 
sivo del teorema 6.2. 

Es interesante notar que el denominador de (6.23) o (6.24) es la función de densi- 
dad de probabilidad marginal o no condicional de X; esto es, 


Kæ = Nfalypr) (6.25) 


fx = fre | yy )dy, (6.26) 


dependiendo de cuando Y es discreta o continua, respectivamente. Además, el nu- 
merador de (6.23) o (6.24) es el producto de la función de verosimilitud y la función 
de probabilidad a priori y, de esta manera, es la probabilidad conjunta de X y Y 
expresada como 


fiv =f] ypy) si Y es discreta, (6.27) 


y) = fal yho) si Y es continua. (6.28) 


Nótese que para (6.27) la función f(x, y) es una mezcla bivariada de una variable 
aleatoria continua y otra discreta. 


Ejemplo 6.7 Un vendedor de articulos domésticos nota que el número de personas 
que compran determinada marca de televisores varía aleatoriamente en el tiempo. El 
vendedor concluye que esta proporción es una variable aleatoria discreta que puede 
tomar los valores de 0.3, 0.35, 0.4 y 0.45, dependiendo de diversas consideraciones 
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de tipo económico. Con base en información previa, les asigna las probabilidades a 
priori 0.4, 0.3, 0.2 y 0.1, respectivamente. Una muestra de tamaño n = 15 revela 
que ocho de los televisores que se venden son de la marca de interés. Si se supone que 
para una proporción en particular p, el número de televisores de la marca que se 
vende para una muestra fija n es una variable aleatoria binomial, obtener las proba- 
bilidades a posteriori. 


Sea X la variable aleatoria que representa el número de aparatos de la marca de 
interés que se venden de una muestra de tamaño n. El valor X = 8 para n = 15, 
representa la evidencia muestral condicionada sobre una proporción en particular p 
de preferencia del consumidor para esta marca. Por hipótesis X es binomial y su 
función de verosimilitud es 


15! I5S-x 


p(x; 15| P) = ea =- p=", x=0,1,2,..., E5. 


Si p = 0.3, el valor de verosimilitud de la muestra es 
15! 
PX = = (),3) = ; .3) = ———— (0.30.7? = 0. ; 
( 8| p 3) = p(8; 15 | 0.3) as — gg: 030.7) 0.0348 


Para los demás valores de p se tiene 


P(X = 8| p = 0.35) = 0.071, 
P(X = 8| p = 0.4) = 0.1181, 
P(X = 8| p = 0.45) = 0.1647. 


Nótese que las dos variables aleatorias son discretas. A pesar de lo anterior, 
puede emplearse el teorema de Bayes (6.23) para obtener las probabilidades a poste- 
riori. La tabla 6.1 proporciona los detalles computacionales. La suma de las proba- 
bilidades tanto a priori como a posteriori debe ser igual a uno, dado que cada una de 
éstas es una distribución de probabilidad. En la figura 6.2 se ilustran las gráficas 


TABLA 6.1 Determinación de las probabilidades a posteriori para el ejemplo 6.7 


Probabilidad 
a priori 
Valores de la Probabilidad  Verosimilitud x Probabilidad 
proporción a priori de la muestra verosimilitud a posteriori 
0.3 0.4 0.0348 0.01392 0.01392/0.07531 = 0.1848 
0.35 0.3 0.071 0.02130 0.02130/0.0753] = 0.2828 
0.4 0.2 0.1181 0.02362 0.02362/0.07531 = 0.3137 
0.45 0.1 0.1647 0.01647 0.01647/0.07531 = 0.2187 


Totales 1.0 0.07531 1.0000 
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FIGURA 6.2 rrotavilidades a priori y a posteriori para el ejemplo 6.7 


de ambas distribuciones de probabilidad, las que muestran un desarrollo notable en 
las probabilidades para los cuatro valores posibles de p. También existe un de- 
sarrollo en los valores esperados de la preferencia del consumidor para esta marca. 
El valor esperado a priori es 0.35 y el valor esperado a posteriori es 0.3783. 

- Se mencionó en la sección 4.5 que la distribución binomial negativa es una alternati- 
va adecuada del modelo de Poisson cuando la frecuencia de ocurrencia no es constante 
sobre el tiempo o el espacio. Por ejemplo, en las estadísticas de accidentes es poco pro- 
bable que la frecuencia con que éstos se presentan entre grupos distintos sea constante 
e independiente sobre un lapso fijo. Lo anterior tiene como consecuencia que el 
punto de vista bayesiano sea una forma de análisis de estos datos mucho más apro- 
piada. 

Supóngase que todas las posibles frecuencias de ocurrencia pueden considerarse 
como valores de una variable aleatoria continua A, cuya distribución a priori es una 
distribución gama con una función de densidad dada por 


fA; k. 0) = MA lexp(—A/0),  A>0. (6.29) 


Faye 
Sea X una variable aleatoria que representa el número de accidentes que se observan 
en un grupo especifico. Entonces puede argumentarse que X es una variable aleato- 
ria de Poisson que depende de una A específica de A, con una función de verosimili- 
tud dada por 


p(xjA) = Nexpl—A)/x!. x=0,1,2,.... (6.30) 


Antes de obtener la distribución a posteriori de A, se demostrará que la función de 
probabilidad marginal de X es la binomial negativa. Esto es, si para cada valor A 
de A, X tiene una distribución de Poisson, entonces la distribución no condicional de 
X sobre todos los posibles valores de A es la binomial negativa. 
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De (6.26) se desprende que la función de probabilidad marginal de X es: 


px) = | pa | MDA AdA. (6.31) 


Nótese que el integrando de (6.31) es la función de densidad conjunta de probabili- 
dad de X y A, lo que da como resultado una mezcla bivariada de una variable aleato- 


ria discreta con una continua. 
La sustitución de (6.29) y (6.30) en (6.31) conduce a: 


On l j x+k-t pen 0 + l 
Px(x) = aml À exp l À (E | dh. (6.32) 


En el integrando de (6.32) sea u = A [(0 + 1)/0]; de esta forma A = [9/(9 + 1) 
lu y di = [0/(0 + 1)ldu. Entonces 


px(x) = A 0/00 + 1 u + exp(—u)du 


T 


0/0 + DET +k) 
p xa 


k x E 
_Tœ+k/ 1 0) X502 (6.33) 
xT) \0+1/ \0+1 k,0>0. 


La expresión (6.33) es idéntica a la dada por (4.35), que es la función de proba- 
bilidad de la distribución binomial negativa para k > 0. Nótese que en (6.33), 
p= 1/0 + 1)y1l — p = 0/(0 + 1), de forma tal que 0 < p < 1 dado 
que 9 > 0. Además, de (4.39) la media de X es 


k0/(0 + 1) 
1/(0 + 1) 


E(X) = = k0 = E(A). 


De esta manera, la distribución binomial negativa es una combinación de distribu- 
ciones de Poisson donde la frecuencia aleatoria de ocurrencia tiene una distribución 
gama cuya media es igual a la media de Poisson. Por esta razón la distribución bino- 
mial negativa también se conoce como una distribución compuesta de Poisson. 

Mediante el empleo del teorema 6.2 y, en particular, de la expresión (6.24), se 
puede obtener la densidad de probabilidad a posteriori de A condicionada al resul- 
tado muestral x de la siguiente forma: 


POE REO al D/0M) El i Jl l ) 
; Maria TNT) G $ 0+1 
att lexp{- [(9 + 1)/0]A) EECA + 1'4 
= Tu)xi0* Fx + 4)0* 
ne x+ko1 Ses 
_ 9 + 1/8) expí— [(0 + De} A>0. (6.34) 
Tx + k) 
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La comparación de (6.34) con la función de densidad de probabilidad de la distribu- 
ción gama, dada por (5.45), muestra que la distribución a posteriori de A es una dis- 
tribución gama con parámetros de forma x + k y de escala 0/(0 + 1). Debe notar- 
se que si las distribuciones a priori y a posteriori pertenecen a la misma familia de 
distribuciones, como en el presente caso, ésta recibe el nombre de familia conjugada 
con respecto a la distribución de la muestra de datos. En este caso, la familia gama 
se conjuga con respecto a la distribución de Poisson. 


Ejemplo 6.8 Supóngase que para las estadisticas de accidentes se decide asignar a 
la frecuencia de ocurrencia una distribución a priori gama con parámetro de forma 
dos y de escala tres. Supóngase que posteriormente se observan dos accidentes para 
una frecuencia en particular. Obtener la función de densidad a posteriori de la fre- 
cuencia, dado el resultado :nuestral, y compararla con la densidad a priori. 


Sea A la frecuencia de ocurrencia. De (5.45) la densidad a priori de A es 
l 
SMA; 2,3) = gAexp(—A/3), A>0. 


Dado un resultado muestral X = 2, la densidad a posteriori de A que se obtiene de 
(6.34) es 


fA; 4,3/4| x) = E (4/3 xo -$ x}, A>0. 

En la figura 6.3 se proporciona una comparación entre las funciones de densidad a 
priori y a posteriori. De ésta es evidente que la densidad a posteriori se encuentra 
menos asimétrica que la densidad a priori. Nótese que la frecuencia media a priori es 
seis mientras que ésta misma a posteriori es tres. 

En la sección 5.4 se mencionó que la distribución beta tiene un papel muy impor- 
tante en la estadística bayesiana. Para ilustrar lo anterior considérese de nuevo el 
análisis bayesiano del parárametro de proporción de la distribución binomial. 


Ejemplo 6.9 En un proceso de manufactura, el interés se centra alrededor de la 
proporción de artículos defectuosos. Dado que es poco probable que el proceso 
tenga cambios menores en un lapso determinado como distintos desarrollos, va- 
riaciones en la materia prima y otros que pueden influir en la proporción de artículos 
defectuosos, es razonable pensar la proporción de éstos como una variable aleatoria 
cuyos posibles valores se encuentran en el intervalo (0,1). Para una proporción dada 
de artículos defectuosos p, se sabe que el número x de éstos que se observa en una 
muestra aleatoria fija de n artículos es binomial. Esto es, la función de probabilidad 
condicional de X para n fijo, dado p, es 


n! 


(nx). 


pain lp) = a pa pros, x=0.1.2,...21. 
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0.3 


Densidad a posteriori 


0.2 


Frecuencia relativa 


0.1 Densidad a priori 


FIGURA 6.3 Densidades a priori y a posteriori para el ejemplo 6.8 


Si la distribución a priori de la proporción de artículos defectuosos es una distribu- 
ción beta con una función de densidad de probabilidad 


Fa + B) 


fAp; Q, 8) = T(a) T(8) 


pa'a _ pe! 0 < p< H, (6.35) 


demostrar que la distribución a posteriori de la proporción de artículos defectuosos, 
dado el número x de éstos, también es una distribución beta. 


De (6.24) la densidad de probabilidad a posteriori de la proporción de artículos 
defectuosos es: 


_ Pn | DAP: a B) 
Fels er E E 


A p: n] pp: a. Bdp 


n! u puo [la+ B) 
(n — Dx! pbp Fo) (8) E 
n! Fle + B) f' 


(n=x)!x! Tí) FB) Jo 


a=k] _ pr 


pos q pE pP dp 


posta Ex pera! 


[ 
| po 3 p) P= dp 


, 
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pero de (5.33), la integral f} p'** UL — py %7 'dp = Blx+a, n+8B-—x). Por lo 
tanto, la densidad a posteriori es: 


pea NN pre 
Bx +a,n+B-= x) 


z Tía + a + B) 
TG +0) Tín +B-x) 


fot = 
po 1 ES pre 0s p < l, (6.36) 


que es una densidad beta con parámetros (x + a) y (n + B — x). Por lo tanto, la 
familia conjugada para la distribución binomial es la familia de distribuciones beta. 


6.8 La distribución normal bivariada 


En el capítulo cinco se estudió la distribución normal de una variable aleatoria. El 
concepto de distribución normal puede extenderse para incluir variables alea- 
torias. En particular, la distribución normal bivariada se emplea de manera extensa 
para describir el comportamiento probabilístico de dos variables aleatorias. 


Definición 6.8 Se dice que las variables aleatorias X y Y tienen una distribución 
normal bivariada si su función de densidad conjunta de probabilidad está dada por 


l | X — Hx 
(x, re rd! sl ) 
l fi > 2m oxoy Vi — p p Xl — pr) Tx (6.37) 


N z(=) (e) x a EEEN 
Ox Ty Oy 


ux = E(X), y= EY), o= Var(X), 0, = Var(Y), 


en donde 


y p es el coeficiente de correlación. de X y Y, definido en la sección 6.4. 


La figura 6.4 ilustra la función de densidad normal bivariada que es una superfi- 
cie tridimensional con forma de campana. Cualquier corte a través de la superficie 
da origen a una curva de forma normal univariada, mientras que planos paralelos al 
plano xy interceptan la superficie en elipses que reciben el nombre de contornos de 
probabilidad constante. 

Es interesante notar que, a pesar de que p = 0 es una condición necesaria de in- 
dependencia, para la distribución normal bivariada también es una condición sufi- 


ciente. Eso es, si p = 0, entonces 


; 1 I/x-u y Ifs- e) 
X. y) = x = 
SE. y) 27010, Ñ o| A Ty ) al o, 
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f(x, y) 
Z 


0.16 


0.05 


FIGURA 6.4 Densidad normal bivariada con E(X) = E(Y) = 0, Var(X) = Var(Y) = 1, 
yp=0 


l Doa l > 5 
= —=— ex (x ax]: —=—=— exp | -(y- p aao 
Vin = ol Hx l Vin F p | , Y 

= fa, 


en donde fy(x) y f,( y) son las densidades normales univariadas de X y Y, respecti- 
vamente. 

Se puede demostrar que, mediante el empleo de (6.37) e integrando con respecto 
a y, la densidad marginal de X es normal con media uy varianza o}. De manera si- 
milar, la densidad marginal de Y es normal con media xu, y varianza o. Por la de- 
finición 6.7, la densidad de probabilidad condicional de X dado el valor y de Y es 


| 
y?r orl — p) 


1 , 
x anf a sj x -uy ANR ma) l (6.38) 
2rd — o) Ty 


La expresión (6.38) es una función de densidad de probabilidad normal con 


ful = 


EX |y) = py + BAA lv=u) y VarXiy =l- p). 
T, 
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Se puede obtener una expresión similar para la densidad condicional de Y dado el 
valor x de X. 


Ejemplo 6.10 Sean X y Y las desviaciones horizontal y vertical (sobre un plano), 
respectivamente, de un vehículo espacial tripulado con respecto al punto de aterriza- 
je de éste en el mar de la Tranquilidad. Supóngase que X y Y son dos variables alea- 
torias, independientes cada una, con una distribución normal bivariada y medias 
Hx = py = 0 y varianzas iguales. ¿Cuál es la máxima desviación estándar permi- 
sible de X y Y, que cumplirá con el requisito de la NASA de tener una probabilidad 
de 0.99, de que el vehículo aterrice a no más de 500 ft del punto elegido, tanto en di- 
rección vertical como horizontal? 


Debido a la independencia y a la hipótesis de que oy = oy = ø, la probabili- 
dad conjunta es 


P(- 500 < X < 500, —-500 < Y < 500) = P(-500 < X < 500) 


- P(—-500 < Y < 500) 


S 
re) 


(9 o 


H 


= P(- Sez) 
. (o g 
Puesto que por hipótesis es 


> 500 500 
po - <<) = 0.99, 
(od o 


Pl - Ma z<2) = 0.99499 


= 0.0025, 


Pe 
N 
V 

Un 

IS 
| 


pero 


| 


P(Z > 2.81) = 0.0025: 


por lo tanto 500/04 = 2.81. y oy = o, < 177.94 pies 
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Ejercicios 


6.1. Se seleccionaron, aleatoriamente, 60 personas y se les preguntó su preferencia con res- 
pecto a tres marcas A, B y C. Éstas fueron de 27, 18 y 15 respectivamente. ¿Qué tan pro- 
bable es este resultado si no existen otras marcas en el mercado y la preferencia se com- 
parte por igual entre las tres? 


6.2. Supóngase que de un proceso de producción se seleccionan, de manera aleatoria, 25 
artículos. Este pi ceso de producción por lo general produce un 90% de artículos listos 
para venderse y un 7% reprocesables. ¿Cuál es la probabilidad de que 22 de los 25 
artículos estén listos para venderse y que dos sean reprocesables? 


6.3. Sean X y Y dos variables aleatorias continuas con una función de densidad conjunta de 
probabilidad dada por: 


Bx — y)/S I<r<2, 1<y<3, 
Hu, y) = 


para cualquier otro valor. 


a) Obtener la función de distribución conjunta acumulativa. 
b) ¿Cuál es la probabilidad conjunta de que X < 3/2 y Y < 2? 
c) Mediante el empleo de sus respuestas a la parte a, obtener las distribuciones acumula- 


tivas marginales de X y Y. 
d) Obtener las funciones de densidad marginal de X y de Y. 


6.4. Sean X y Y dos variables aleatorias continuas con una función de densidad conjunta de 
probabilidad dada por 


xexpl—x(y + D] xvyv>0, 
Fix, y) = 


para cualquier otro valor. 


a) Demostrar que f(x. y) es una función de densidad conjunta de probabilidad. 
b) ¿Cuál es la probabilidad conjunta de que X < 2 y Y < 1? 

c) Obtener las funciones de densidad marginal de X y de Y. 

d) ¿Son X y Y estadísticamente independientes? 


6.5. Sean X y Y dos variables aleatorias discretas en donde los posibles valores que éstas 
pueden tomar son— 1. 0, y 1. En la siguiente tabla se dan las probabilidades conjuntas 
para todos los posibles valores de X y Y. 


A e: 


TO IO mcr crm cres ee e 


6.6. 


6.7. 


6.8. 
- dientes a dos productos distintos fabricados por la misma compañía y cuya función de 


6.9. 


6.10. 


6.11. 
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a) Obtener las funciones de probabilidad marginal px(x) y pr(y). 
b) ¿Las variables aleatorias X y Y son estadísticamente independientes? 
c) Obtener CovíAX, Y). 


Para la función de densidad conjunta de probabilidad del ejercicio 6.3, obtener Cov(X, 
Y) y p(X, YN). 


En función de su prioridad, un programa para computadora espera en la fila de entrada 
cierto tiempo, depués del cual lo ejecuta el procesador central en un lapso dado. La fun- 
ción de densidad conjunta para los tiempos de espera y ejecución se determina por 


f t 
Mar 2 exp - ( + 1) | nh >0, 


0 para cualquier otro valor. 


Dada la distribución conjunta acumulativa: 


le — expl—£,/5)0 — expt-10)]  1.t>0, 
Fiti. t) = 


para cualquier otro valor. 


a) Obtener la probabilidad conjunta de que el tiempo de espera no sea mayor de ocho 
minutos y el de ejecución no sea mayor de 12 segundos. 

b) Obtener las funciones de densidad marginal y deducir que estos lapsos son variables 
aleatorias independientes. 


Las variables aleatorias X y Y representan las proporciones de los mercados correspon- 


densidad conjunta de probabilidad está dada por 


, (x + y) 0<xy<l, 
fu y) = 


para cualquier otro valor. 


a) Obtener las funciones de densidad marginal de X y Y. 
b) ¿Las variables aleatorias X y Y son estadísticamente independientes? 
c) Si X = 0.2, obtener la función de densidad de probabilidad condicional de Y. 


Las variables aleatorias X y Y representan el largo y ancho (en cm) de una hoja de acero. 
Si X y Y son independientes con funciones de densidad de probabilidad dadas por 


Il. 9<x< 100. l, 49<y<50, 
Aw = l fho) = 


0 para cualquier otro valor. (0 para cualquier otro valor. 


úsese la definición de la varianza para obtener la varianza del área de la hoja de acero 

XY. 

Sea X una variable aleatoria continua y Y discreta. 

a) Si fix. y) = xè exp(—20)/v!,x > 0, y =0,1,2,.... obtener la función de 
probabilidad marginal de Y. 

b) Obtener la función de probabilidad condicional de X para Y = 2. 

c) Obtener FX | 2) y Var(X | 2). 


Sean X y Y dos variables aleatorias. Demostrar que Var(aX — bY) = a° Var(X) + b 
Var(tY)} — 2ab Cov(X, Y), en donde a y b son constantes. 


212 


6.12. 


6.13. 


6.14. 


6.15. 


6.16 


6.17 


6.18. 


6.19. 
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Sean X y Y dos variables aleatorias. Demostrar que Contar, bY) = ab Cov(X, Y), en 
donde a y b son constantes. 


Si X y Y son dos variables aleatorias independientes Var(X + Y) = Var(X — Y) = 
Var(X) + Var(Y). Comparar este resultado con Var(X + Y) cuando Var(X — Y) 
Cov(X, Y) > 0o Cov(X, Y) < 0. ¿Qué puede concluirse? 


Supóngase que la frecuencia A a la que ocurren accidentes automovilísticos en un lapso 

fijo es una variable aleatoria con una ditribución gama y parámetros de forma y escala 

igual a dos. Si para cada valor A de A la distribución condicional del número de acciden- 

tes es una distribución de Poisson, obtener la función de probabilidad marginal de X y 

calcular las probabilidades para X = 0, 1, 2... 10. ¿Cómo son estas probabilidades al 

compararlas con las que se obtienen bajo la suposición de una frecuencia constante 
= 4? 


Supóngase que la incidencia de cáncer pulmonar para un determinado número de perso- 
nas adultas, sin importar sus hábitos de fumador, su edad, etc., es una variable aleatoria 
con distribución gama con parámetros de forma y escala iguales a dos. Para un grupo es- 
pecífico de personas, el número que presentarán cáncer pulmonar es una variable alea- 
toria de Poisson en donde el valor del parámetro de ésta depende de la incidencia de 
cáncer en este grupo. Obtener la probabilidad no condicional de que no más de dos per- 
sonas desarrollen cáncer en este grupo. 


En el ejercicio 6.15 supóngase que x = 5 adultos, de cierto número, desarrollarán cán- 
cer. Obtener la densidad a posteriori de A dado x, calcular las medias y varianzas tanto 
a priori como a posteriori y comparar los resultados. 


Supóngase que el gerente de una planta descubre que la proporción de artículos defec- 
tuosos en su proceso de producción no es constante sino que se comporta como una va- 
riable aleatoria. Sin ninguna evidencia, decide asignar una distribución beta con œ = 1 
y B = 24 para la producción de artículos defectuosos. 


a) Graficar la función de densidad a priori y obtener su media y su varianza. 

b) Supóngase que el gerente toma una muestra n = 12 artículos y encuentra uno de- 
fectuoso. Bajo las hipótesis necesarias, obtener y graficar la función de densidad de 

. probabilidad a posteriori. 

c) Encontrar la media y la varianza a posteriori y compararlas con la media y la varian- 
za a priori. 

d) Hágase uso del ejercicio 5.24 para obtener la probabilidad a posteriori de que la pro- 
porción de artículos defectuosos sea a lo más 0.05. 


Supóngase que la proporción de lanzamientos exitosos de satélites de comunicaciones es 
una variable aleatoria con distribución beta y parámetros « = 2ly 8 = 1. Si delos úl- 
timos 12 lanzamientos uno ha fracasado, obtener la función de probabilidad a poste- 
riori de la proporción de lanzamientos exitosos y calcular la probabilidad a posteriori 
para que la proporción de éstos sea mayor de 0.95. Emplée la expresión 5.44, 


La función de densidad conjunta de probabilidad para la demanda mensual de dos pro- 
ductos es una distribución normal bivariada dada por 


Joad l i 2 (z - 2) E - o: - 25) a E - sy 
10073 3 10 10 10 10 
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a) ¿Cuál es el coeficiente de correlación entre X y Y? 
b) ¿Cuál es la covarianza entre X y Y? 


` «c) Obtener la función de densidad de probabilidad condicional f(x | y). 


6.20. 


d) Supóngase que la demanda de Y es 30. ¿Cuál es la probabilidad condicional de que 
` X sea menor que 65? 


Supóngase que el CI(X) y la calificación promedio de estudiantes no graduados de li- 
cenciatura Y son variables aleatorias que se encuentran distribuidas de manera conjunta 
como una distribución normal bivariada 4y = 100, ox = 10, uy = 3, oy = 0.3, y 
Cov(X, Y) = 2.25. 


a) Si algún estudiante posee un CI de 120, ¿cuáles son los valores de la media y la des- 
viación estándar condicionales para Y? 

b) Dado que el CI es 120, obtener la probabilidad de que Y sea mayor de 3.5. 

c) Supóngase que la calificación promedio de un estudiante es 2.8. ¿Cuál es la probabi- 
lidad de que esta persona tenga un Cl mayor de 115? 


CAPÍTULO SIETE 


Muestras aleatorias | 
y distribuciones de muestreo e 


7.1 Introducción 


En el capítulo uno se mencionó que para comprender la esencia de la inferencia esta- 
dística es necesario comprender la naturaleza de una población y de una muestra. 
Una población representa el ““estado de la naturaleza” o la forma de las cosas con 
respecto a un fenómeno aleatorio en particular, mismo que puede identificarse a tra- 
vés de;una característica medible X. La manera en que ocurren las cosas en relación 
con X puede definirse por un modelo de probabilidad que recibe el nombre de distri- 
bución de probabilidad de la población. Por otro lado, una muestra es una colección 
de datos que se obtienen al llevar a cabo repetidos ensayos de un experimento para 
lograr una evidencia representativa acerca de la población en relación con la caracte- 
Tística X. Si la manera de obtener la muestra es imparcial y técnicamente buena, en- 
tonces la muestra puede contener información útil con respecto al estado de la natu- 
raleza y a partir de ello se podrán formular inferencias. Ahora bien, estas últimas 
son inductivas y, por lo tanto, están sujetas a riesgo, dado que representan un razo- 
namiento que va de lo particular a lo general. 

En los capítulos cuatro, cinco y seis se examinaron con detalle algunas distribu- 
ciones de probabilidad que pueden servir como modelo para la distribución de una 
población de interés. En los capítulos restantes el principal objetivo es examinar dis- 
tintas técnicas por medio de las cuales puede aplicarse el proceso inductivo de la in- 
ferencia estadística para proporcionar resultados útiles y confiables. La inferencia 
estadística se define como la colección de técnicas que permiten formular inferencias 
inductivas y que proporcionan una medida del riesgo de éstas. En este capítulo se es- 
tablecerán algunos conceptos teóricos básicos con respecto al muestreo y a la infe- 
rencia estadística. La aplicación de estos conceptos se dará con gran detalle en 
capítulos posteriores. 


7.2 Muestras aleatorias 


Como la inferencia estadística se formula con base en una muestra de objetos de la 
población de interés, el proceso por medio del cual se obtiene será aquél que asegure 
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la selección de una buena muestra. En el capítulo uno se expuso que una manera de 
obtener una buena muestra resulta cuando el proceso de muestreo proporciona, a cada 
objeto en la población, una oportunidad igual e independiente de ser incluido en la 
muestra. Si la población consiste de N objetos y de éstos se selecciona una muestra de 
tamaño n, el proceso de muestreo debe asegurar que cada. muestra de tamaño'”'tenga 
la misma probabilidad de ser seleccionada. Este procedimiento conduce a lo que co- 
múnmente se conoce como una muestra aleatoria simple. En este contexto, la pa- 
labra ““aleatorio”” sugiere una total imparcialidad en la selección de la muestra. .-. 
La naturaleza de la inferencia inductiva demanda una muestra aleatoria porque 
la selección de ésta se lleva a cabo con el fin de proporcionar los medios adecuados 
para que pueda formularse una inferencia con respecto a alguna característica de la 
población de interés. Por ejemplo, pueden formularse inferencias de ciertas condi- 
ciones que se suponen válidas para la población si la muestra que se observó se 
encuentra o no dentro de la variación muestral, misma que prevalecerá si las condi- 
ciones son verdaderas. De esta forma la calidad de la aleatoriedad en una muestra 
asegura la aplicación correcta de la probabilidad para evaluar el riesgo inherente en 
un proceso inductivo. 
` . En este momento es importante estructurar el concepto de una muestra aleato- 
ria simple empleando para ello los conceptos de probabilidad que se presentaron en 
los capítulos dos al seis. Para llevar a cabo lo anterior, primero se examinarán si- 
tuaciones que se presentan, de manera frecuente, en los muestreos. La primera de és- 
tas surge en muchos experimentos que involucran fenómenos aleatorios en la inge- 
niería y las ciencias fisicas. En estos casos la población de interés no consiste en obje- 
tos tangibles a partir de los cuales se selecciona un cierto número para formar la 
muestra. Más bien, la población se considera constituida por un número infinito de 
posibles resultados para alguna característica medible de interés. Esta característica 
generalmente es una medición física como el nivel de concentración de un contami- 
nante, la demanda de un producto o el tiempo de espera en un servicio. Sea X una 
característica medible y f(x; 6) la función de densidad de probabilidad de la distri- 
bución de la población. El siguiente procedimiento es una forma de muestreo para 
este tipo de población: 


1. Se diseña un experimento y se lleva a cabo para proporcionar la observación X, 
de la característica medible X. El experimento se repite bajo las mismas condi- 
ciones proporcionando el valor X,. El proceso se continúa hasta tener z observacio- 
nes X,» X,, ..., X, de la característica X. 


En este procedimiento de muestreo, las observaciones muestrales se colectan a 
través de ensayos independientes que ocurren cada vez que el experimento se repite 
bajo condiciones idénticas para todos los factores que son controlables. En este con- 
texto, cada observación del ¡-ésimo experimento se considera como una selección de 
la misma fuente que proporciona la observación de cualquier otro ensayo para X. 
En esencia, las observaciones bajo las mismas condiciones como resultado de repeti- 
dos ensayos independientes de un experimento, constituye lo que se denomina un 
muestreo aleatorio con reemplazo. De acuerdo con lo anterior, cada una de las ob- 
servaciones X D Xə, ..., X, es una variable aleatoria cuya distribución de probabi- 
lidad es idéntica a la de la población. 
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Una situación diferente se presenta cuando se lleva a cabo una selección de ob- 
jetos tangibles de una población que consiste en un número finito de objetos (seres 
humanos, animales, componentes mecánicos o eléctricos, etc.). La característica me- 
dible de interés puede ser un atributo, como el estado de un componente (defectuoso 
o no defectuoso), la opinión de una persona con respecto a cierto tema (a favor o en 
contra) o una medición cuantitativa como el CI de una persona o el tiempo de dura- 
ción de un componente. Existen dos formas para opiner muestras aleatorias de este 
tipo de población: 3 > 


2. Después de llevar a cabo una mezcla adecuada de los objetos de la población, se 
extrae uno y se observa la caracteristica medible. Esta observación será X,. El ob- 
jeto se regresa a la población y ésta vuelve a mezclarse; después se extrae el segun- 
do objeto. X, se constituye por la segunda observación. El proceso se continúa de 
esta forma hasta que se han extraído n objetos para tener una muestra de obser- 
vaciones X,, X3, ..., XA, de la característica X. 

3. Después de una mezcla adecuada de los objetos que constituyen la población, n 
de éstos se seleccionan uno después de otro sin reemplazo. Este proceso propor- 
ciona una muestra de observaciones X,, X>, ..., X, de la característica X. 


Nótese que la técnica 2 constituye un muestreo con reemplazo y la técnica 3 es 
un muestreo sin reemplazo. En el contexto general de una muestra aleatoria simple, 
la técnica recibe el nombre de aleatoria. Cuando los objetos se extraen después de 
una selección equitativa. Por consiguiente, la técnica de muestreo dos recibe el . 
nombre de muestreo aleatorio con reemplazo, y la técnica tres el de muestreo aleato- 
rio sin reemplazo. En la técnica dos, cada una de las observaciones X,, Xz, ..., Xn 
es una variable aleatoria cuya distribución de probabilidad es identica a la de la po- 
blación, puesto que en cada extracción ésta tiene su forma original. En la técnica de 
muestreo tres, las observaciones X,, X, ..., X, también son variables aleatorias 
cuyas distribuciones marginales son iguales a las de la población. Es decir, puede 
demostrarse que aun a pesar de que los objetos que se extraen de la población no 
sean reemplazados, la distribución no condicional de X, es idéntica a la de la pobla- 
ción, para toda ¿=1,2,...,n. 

La diferencia básica entre las dos técnicas es la noción de independencia. En la 
técnica dos, las observaciones X,, X,, ..., X, constituyen un conjunto de variables 
aleatorias independientes e idénticamente distribuidas (IID) dado que, por el proce- 
so de reemplazo, ninguna observación se ve afectada por otra. En la técnica tres, a 
pesar de que las observaciones X',, X», ..., X„ poseen la misma distribución, no son 
independientes. 

Recuérdese que, para la técnica uno, el muestreo se lleva a cabo con reemplazo a 
pesar de que la población no se encuentre constituida por objetos tangibles. De 
hecho, la técnica de muestreo dos es un caso especial de la primera, dado que la po- 
blación no se afecta después de cada extracción. Sin embargo, es interesante notar 
que puede preferirse el muestreo aleatorio sin reemplazo si el tamaño de la población 
es relativamente pequeño*. En estos casos, si el muestreo se lleva a cabo con re- 


* El lector recordará que esto es precisamente lo que constituye una distribución hipergeométrica tal como 
se discutió en la sección 4.4. 
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emplazo es muy probable que el mismo objeto sea seleccionado más de una vez. Es 
por esta razón que en las encuestas de preferencia el muestreo se hace sin reemplazo; 
Por otro lado, si el número de objetos en la población es muy grande, es irrelevante 
si el muestreo se lleva a cabo con reemplazo o sin éste. Conforme crece el tamaño de 
la población, el muestreo aleatorio sin reemplazo es, en todos los intentos y para 
cualquier propósito, igual al muestreo aleatorio con reemplazo. 

Al hablar de la inferencia estadística se súpondra la existencia de una muestra 
aleatoria, como la descrita por la técnica de muestreo 1, y que se define de manera 
formal de la siguiente manera: 


Definición 7.1 Si las variables aleatorias X, X,» »»., X, tienen la misma función 
(densidad) de probabilidad que la de la distribución de la población y su función 
(distribución) conjunta de probabilidad es igual al producto de las marginales, en- 
tonces X;, X,, ..., X, forman un conjunto de n variables aleatorias independientes 
e idénticamente distribuidas (11D) que constituyen una muestra aleatoria de la po- 
blación. 


Cuando el objetivo es formular una inferencia estadística, debe hacerse un in- 
tento honesto para obtener una muestra aleatoria que porporcione la base teórica 
necesaria para la inferencia. Desde un punto de vista práctico, lo anterior no siempre 
es fácil. Por ejemplo, en muchas ocasiones es difícil decidir cuándo se están mante- 
niendo condiciones idénticas durante el proceso de reunir datos en experimentos 
científicos. Esto es especialmente cierto si los factores ambientales crean condicio- 
nes heterogéneas. Sin embargo, es responsabilidad del experimentador decidir cuán- 
do una muestra observada de datos es, en gran medida, aleatoria. 

Para ilustrar el proceso de muestreo en un experimento científico, supóngase 
que se tiene interés en la concentración de cierto contaminante en un depósito de 
agua. Se coloca una boya que contiene un instrumento para medir el nivel de con- 
centración en el sitio de interés. El instrumento registra el nivel de concentración 
cada n intervalos. De esta forma, las observaciones X, X,, ..., X, constituyen una 
muestra del nivel de concentración en el sitio de interés. Antes de que el instrumento 
registre el nivel de concentración para el ¿-ésimo periodo, la observación X, es una 
variable aleatoria para i = 1, 2, ..., n. El valor registrado x, (el valor numérico 
correspondiente a la observación X) es una realización de la variable aleatoria. Al 
final de los n intervalos las mediciones x,, x>,..., X, que registra el instrumento 
son las realizaciones, o datos muestrales, de las correspondientes variables aleatorias 
Xi, Xə, .... X,. Sin embargo, es válido preguntarse si la anterior es veraderamente 
una muestra aleatoria. Nadie puede proporcionar una respuesta legítima sin tener 
información adicional. Por ejemplo, ¿está el investigador consciente de todos los su- 
cesos que durante el periodo de muestreo podría causar un cambio significativo en 
el nivel de concentración del contaminante? ¿Consideró el lapso de muestreo ade- 
cuado o existen algunas fluctuaciones temporales que deben ser consideradas? ¿Es 
probable que el error en el instrumento sea mayor conforme transcurre el tiempo? 
Preguntas como las anteriores deben contestarse antes de dar un juicio definitivo 
sobre la aleatoriedad de la muestra. 
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En el contexto de la definición 7.1, la función (densidad) conjunta de probabili- 


dad de X,, X,, ..., X, es la función de verosimilitud de la muestra dada por 
Les 0) = [feso (7.1) 
i=l 
en donde x = {x;, X2, ..., x,) denota los datos muestreados: Cuando las realizacio- 


nes x se conocen, L(x; 6) es una función del parámetro desconocido 0. La utilidad 
de la función de verosimilitud para estimar parámetros se examinará en el capítulo 
ocho. 


Ejemplo 7.1 Se ilustrará el concepto de muestra aleatoria dado en la definición 7.1 
mediante lo siguiente: sea X,, X,, ..., X, una muestra aleatoria de n variables alea- 
torias IID de una población cuya distribución de probabilidad es exponencial con 
densidad 


l 
f(x;0) = g €*P( 1/0), 0<x<xo, 
Cuando se observa X, y se registra su realización x,, 


f(x, 0) = $ exp(—x1/0), 0<x, <o, 


Ahora se observa X, y se registra su realización x,. Dado que X, y X, son estadística- 
mente independientes y tienen las mismas densidades marginales, 


Sox) = fa; 0) = í exp( 2/0), 0<x <o, 
La función de densidad conjunta de X, y X, es 
fxi x2; 0) = fixi; 0) fz; 0) = exp + x2)/0,  0<x<o,¡= 132. 
Por lo tanto, se desprende que para una muestra aleatoria de tamaño n 


| 
LX, X, ..., Xn 0) = g Pl- On + x +e +x,)/01, 
0<x<x,¡=1,2,...,n. 


7.3 Distribuciones de muestreo de estadísticas 


En los comentarios introductorios del capítulo uno se mencionó de manera breve que 
las características muestrales denominadas “estadísticas”? se emplean para hacer infe- 
rencias con respecto a las características de la población, las que reciben el nombre 
de “*parámetros””. El objetivo de esta sección será el de examinar con detalle el papel 
que desempeñan las estadísticas en relación con la inferencia. En particular, se desa- 
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rrollará la noción de una distribución de muestreo de una estadística, que es uno de 
los conceptos más importantes en inferencia estadística. 

Para colocar a las estadísticas en una mejor perspectiva se debe definir y anali- 
zar, de manera formal, un parámetro de población. 


: N 
Definición 7.2 Un parámetro es una caracterización numérica de la distribución de la 
población de manera que describe, parcial o completamente, la función de densidad 
de probabilidad de la característica de interés. Por ejemplo, cuando se especifica el 
valor del parámetro de escala exponencial 6, se describe de manera completa la 
función de densidad de probabilidad 


`N Fx; 0) = : exp(—x/0). 


La oración ‘“‘describe de manera completa” sugiere que una vez que se conoce el 
valor de 9 entonces puede formularse cualquier proposición probabilística de inte- 
rés. A manera de ilustración, si @ = 2, entonces: 


P(X > 4) = f exp(—x/2)dx = 0.1353, 


Por otra parte, si se especifica un valor del parámetro de forma «, de la distribución 
gama, la función de densidad de probabilidad 


x“! exp(—x/0) 


—T(aye” 


no se encuentra especificada de manera completa, ya que no se ha hecho ninguna 
mención con respecto al valor del párametro de escala 0. 

La esencia de todo lo anterior es que, dado que los parámetros son prácticamen- 
te inherentes a todos los modelos de probabilidad, es imposible calcular las proba- 
bilidades deseadas sin un conocimiento del valor de éstos. Es por esta razón que la 
noción de una estadística y su distribución de muestreo es muy importante en inferen- 
cia estadística. Esto es, los parámetros o sus funciones se estiman con base en esta- 
dísticas que, a su vez, se obtienen a partir de la información contenida en una 
muestra aleatoria. 

Antes de dar la definición de una estadística, debe notarse que desde un punto de 
vista clásico (no bayesiano), un parámetro se considera como una constante fija 
cuyo valor se desconoce. Desde una perspectiva bayesiana un parámetro siempre es 
una variable aleatoria con algún tipo de distribución de probabilidad. Se considerará 
a los parámetros, principalmente desde el punto de vista clásico, aunque también se 
dará el punto de vista bayesiano, a fin de dar una perspectiva apropiada. 


Definición 7.3 Una estadística es cualquier función de las variables aleatorias que 
se observaron en la muestra de manera que esta función no contiene cantidades des- 
conocidas. 
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Considérese la muestra X = {X;, Xz, ..., Xn} que consiste de n variables alea- 
torias IID con una función de densidad de probabilidad f(x; 0) que depende de un 
parámetro desconocido 0. Supóngase que se definen funciones como 


TO = (X, + X, + =- + X,)/n, 
TAX) = (X? + X} + + + X2)/m, 
TD = X, + X, 


y así sucesivamente. Todas ellas son estadísticas porque se determinan de manera 
completa por las variables aleatorias que contiene la muestra. De manera general, 
denótese una estadística por T = u(X). Dado que T es una función de variables alea- 
torias, es en sí misma una variable aleatoria, y su valor específico = u(x) puede 
determinarse cuando se conozcan las realizaciones x de X. Si se emplea una estadis- 
tica T para estimar un parámetro desconocido 0, entonces T recibe el nombre de 
estimador de 0, y el valor específico de £ como un resultado de los datos muestrales 
recibe el nombre estimación de 6. Esto es, un estimador es una estadística que identi- 
fica al mecanismo funcional por medio del cual, una vez que las observaciones en la 
muestra se realizan, se obtiene una estimación. 

Una estadística es, sustancialmente, diferente de un parámetro. Un parámetro es 
una constante pero una estadística es una variable aleatoria. Además, un valor del 
parámetro descrito describe de manera completa un modelo de probabilidad (supo- 
niendo una distribución uniparamétrica); ningún valor de la estadística puede de- 
sempeñar tal papel si cada uno de éstos depende del valor de las observaciones de las 
muestras. Y dado que las muestras se toman en forma aleatoria, ninguna muestra es 
más válida que cualquier otra que se haya tomado con el mismo fin. 

Para ilustrar el concepto de una estadística se dará solución al siguiente proble- 
ma: supóngase que se tiene interés en la duración promedio de cierta clase de batería 
miniatura. Se asegura que el proceso de manufactura de ésta es el mismo y que se 
emplean materiales idénticos. Se decide seleccionar aleatoriamente cinco pilas diarias 
durante 20 días. Para cada muestra diaria, las cinco baterías se someten a una 
prueba de duración que consiste en registrar el tiempo de operación. La prueba ter- 
mina cuando todas dejan de funcionar. Como se supone que el proceso de fabrica- 
ción es el mismo durante el periodo de muestreo, este esquema proporciona 20 muestras 
aleatorias distintas, donde cada una contiene cinco variables aleatorias independientes y 
distribuidas de manera idéntica. Sea = [X,,, Xaj, .... Xsj} el conjunto de varia- 
bles aleatorias de la jésima muestra para j = 1,2,...,20, y x; = {Xij Azp 0... Xs 
los correspondientes tiempos de duración observados. Considérese la estadística. 


T; = (X ¡+ A+ un + X5)/5 


como un estimador del tiempo de duración promedio de las baterías. Si se supone 
que los tiempos observados son los que aparecen en la tabla 7.1, entonces para la j- 
ésima muestra existe una realización /, para la estadística 7,. Es decir, cada muestra 
diaria proporciona una estimación de la duración promedio de las baterías. 
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Nótese que las estimaciones que aparecen en la tabla para la duración promedio 
tienen una variación que se encuentra entre 140.8 y 157.2 horas. De esta forma, exis- 
te una variabilidad inherente entre estas estimaciones. Además, para cualquier esta- 
dística se espera una variabilidad de muestra a muestra, dado que una estadística es 
una variable aleatoria. De hecho, para cada estadística existe lo que se conoce 
como su distribución de muestreo, la cual toma en cuenta la variabilidad inherente y 
proporciona los medios necesarios por medio de los cuales puede evaluarse la 
estadística. Se definirá la distribución de muestreo de una estadística con base en 
muestras aleatorias, de acuerdo con la definición 7.1. 


Definición 7.4 La distribución de muestreo de una estadistica T es la distribución 
de probabilidad de T que puede obtenerse como resultado de un número infinito de 
muestras aleatorias independientes, cada una de tamaño n, provenientes de la pobla- 
ción de interés. : 


Dado que se supone que las muestras son aleatorias, la distribución de una esta- 
dística es un tipo de modelo de probabilidad conjunta para variables aleatorias inde- 
pendientes, en donde cada variable posee una función de densidad de probabilidad 
igual a la de las demás. De manera general, la distribución de muestreo de una esta- 
dística no tiene la misma forma que la función de densidad de probabilidad en la dis- 
tribución de la población. 

Para ilustrar lo anterior, considérese la distribución de muestreo de una estadísti- 
ca para los 20 promedios muestrales dados en la tabla 7.1. Mediante el empleo de los 
métodos del capítulo uno, se agrupan las 20 realizaciones en cinco clases y se ob- 
tienen las frecuencias relativas que aparecen en la tabla 7.2. 


TABLA 7.1 Tiempos de duración (en horas) observados para una muestra aleatoria de bate- 
rías 


Número de muestra | 2 3 4 5 6 7 8 9 10 


163 159 150 136 136 138 155 158 135 166 
132 144 125 157 146 145 145 150 144 142 
154 139 139 168 158 150 151 153 148 156 
152 146 134 158 154 138 154 151 150 154 
148 144 156 167 156 158 141 138 148 160 


Promedio 

de la muestra 149.8 146.4 140.8 157.2 150.0 145.8 149.2 150.0 145.0 155.6 

Número de muestra 11 12 13 14 15 16 17 18 19 20 
150 154 148 149 150 147 158 164 153 135 
152 150 166 158 138 151 147 136 160 150 


163 141 148 139 153 161 141 143 156 164 
161 159 149 146 151 142 130 137 142 152 
139 153 — 154 136 161 149 147 152 156 144 


Promedio ; 
de la muestra 153.0 151.4 153.0 145.6 150.6 150.0 144.6 146.4 153.4 149.0 
ES A A E S A A a 


222 Muestras aleatorias y distribuciones de muestreo 


TABLA 7.2 Grupos y frecuencias relativas para las 20 medias muestrales. «+ <- ~ 


| 


e Frecuencia ic. ooo cc da 


Límites de clase T de la clase . E . Frecuencia relativa 
140.6- 144.0 l 0.05 
144.1-147.5 i 6 ~ 0.30 
147.6-151.0 7 0.35 
151.1-154.5 4 0.20 
154.6--158.0 2 0.10 


Total 20 1.00 


A partir de estas frecuencias relativas es evidente que la más alta concentración 
de tiempos de duración promedio se encuentra entre 147.6 y 151 horas, e:. donde los 
tiempos de duración promedio por debajo de 144 horas o por encima de 154.6 tienen 
una probabilidad muy pequeña. La distribución de muestreo de una estadística hace 
posible este tipo de análisis de probabilidad, esencial para valorar el riesgo inherente 
cuando se formulan inferencias. 

Posteriormente se enunciarán algunos teoremas básicos que permiten obtener las 
distribuciones muestrales de estadísticas importantes como la media X y la varianza 
S? muestral. Se usará de manera frecuente la función generadora de momentos, dado 
que ésta determina univocamente una distribución de probabilidad. Ñ 


Teorema 7.1 Sea X,,X,,..., X, un conjunto de n variables aleatorias indepen- 
dientes cada una con funciones generadoras de momentos Mx,(t), MxA(1), ..., my (t). 
Si 


Y = aX; + a X> +e + anXn, 
en donde a,, az, ..., a, son constantes, entonces: 
my(t) = mx (a¡)mxax) + mx (a, t). 


Demostración: Mediante el empleo de la definición y la hipótesis de independen- 
cia, se tiene 


my(t) 


Elexplila,X, + aX, + © + a, X,))} 


Elexpíta, X,) exp(ta,X,) = explta, X,,)) 
= Elexplta, X NJElexpíta,X,)] = Elexpíta, X,,)] 


mx (a t)mx(ar) gaS My (än t) . 


De esta forma, la función generadora de momentos de una combinación lineal de n 
variables aleatorias independientes es el producto de las correspondientes funciones 
generadoras de momentos con argumentos iguales a las constantes de tiempo £. 
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Teorema 7.2 Sea X,, X, ..., X, un conjunto de variables aleatorias independien- 
tes normalmente distribuidas con medias E(X;) = a; y varianzas Var(X;) = a? 


para ¿= 1,2. «n. Si O E 
E A ES 


Lo ha NS a 
en donde a;,, a», ..., a, son constantes, entonces Y es una variable aleatoria con 
“distribución normal y media 


E(Y) aih, + a42 + N + A, Pon 


y con varianza 


Van Y) = añoi + œo} + + ao}. 


Demostración: Dado que X; se encuentra normalmente distribuida, su función ge- 
neradora de momentos es 

mxkt) = explu,t + (0?1?)/2]. 
De acuerdo con el teorema 7.1, la función generadora de momentos de Y es 


my(t) = mx (a )m,xlaxt) > mx, (a, t) 


it 


explua,t + (ai0it)/2] = explu,a,t + (azo51t?)/2) 


exp Şam; + (r$a) /?]. 
i=l i=l 


Por lo tanto, Y se encuentra normalmente distribuida con media >;., au, y varian- 
za X’ ao. 

Del teorema 7.2 se desprende que si a; = 1 para i = 1, 2, ... n, entonces la 
suma de variables aleatorias independientes normalmente distribuidas también 
posee una distribución normal con media y varianza igual a la suma de las medias 
y las varianzas de cada una de las variables aleatorias. La mayor parte de las veces 
el resultado anterior se conoce como la propiedad aditiva de la distribución nor- 
mal. Debe notarse que la hipótesis de normalidad no es necesaria para obtener las 
fórmulas de la media y la varianza de Y en el teorema 7.2. De hecho, con base en el 
teorema 6.1, si Xi, Xə, ..., X, es un conjunto de n variables aleatorias IID con me- 
dias E(X;) = p; y varianzas Var(X,)) = a, i = 1,2, ..., n, entonces para 
Y = aX, + aX + + + a,X,, 


lo 


EY) = Y an, 
(7.2) 


Var(Y) = 5 aia”, 
¡=1 
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en donde, de nuevo, 4,, 4), ..., a, son constantes. 
Del teorema 7.2 surgen algunas aplicaciones interesantes. La siguiente constituye 
un ejemplo típico. 


Ejemplo 7.2 Supóngase que para un árbol de levas y un cojinete, el diámetro exter- 
no del primero X, y el diámetro interno del segundo X, son variables aleatorias inde- 
pendientes con una distribución normal, con medias E(X,) = 3.25 cm, E(X,) = 3.3 
cm y desvaciones estándar d.e.(X,) = 0.005 cm y d.e.(X,) = 0.006 cm, respectiva- 
mente. El interés recae en la diferencia entre X, y X,, que es el espacio que existe 
entre el diámetro interno del cojinete y el diámetro externo del árbol de levas. El es- 
pacio se representa por Y, donde Y = X,- X, Si al armarse una máquina existe un 
apareamiento aleatorio entre los árboles de levas y los cojinetes, debe obtenerse el 
valor del espacio que existe entre éstos y, w, de manera tal que la probabilidad de 
que Y tenga un valor menor que éste sea de 0.004. 

Dado que X, y Y- son variables aleatorias independientes, se aplica el teorema 
7.2 con a, = —1 y a, = 1. De esta forma 


E(Y) = (DE(X,) + (— DE(X,) = 0.65, 


d.e.(Y) = V(1)(0.006)" + (— 1)'(0.005) = 0.00781. 
Esto es; Y ~ N(0.05, 0.00781). Entonces 
P(Y < Yo.001) = 0.004 


(e) 
PIZ < (Yvo — 0.05)/0.00781] = 0.004, 
pero 
PIZ < -2.65] = 0.004; 
así pues: 


(Yo 004 == 0.05)/0.00781 ER ~ 2.65, 


Y Yov De acuerdo con lo anterior se necesita un espacio no menor de 0.0293 cm 
para las condiciones dadas. 
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Una de las estadísticas más importantes es la media de un conjunto de variables alea- 
torias independientes e idénticamente distribuidas. Esta estadística tiene un papel 
muy importente en problemas de toma de decisiones para medias poblacionales des- 
conocidas. Sea X|. X». .... X, una muestra aleatoria que consiste de n variables 


aleatorias IID tales que E(X,) = u y Var(X,) = o” para toda i = 1.2, ..., n. 
Entonces la estadística 


X=(X, 7 X,+ + X,)/n (7.3) 
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«se define como la media de las n variables aleatorias IID o, sencillamente, me- 
dia muestral. Nótese que una vez que se conocen las realizaciones x,, xz, ..., x, de 
Xis X2, ..., Xn, respectivamente, la realización ¥ de X se obtiene promediando los 
datos muestrales. Si en (7.2) a; = 1/n,i = 1,2,..., n entonces el valor esperado y 
la varianza de X son ía 


a è n 


A r 
EX) = 274 = nu/n) = y (7.4) 


Vr = Y Jo = n(0*/n?) = o°/n, (7.5) 


Me i=l 


respectivamente, en donde p y o” son la media y la varianza de la distribución de la 
población a partir de la cual se obtuvo la muestra. Con respecto a este resultado, lo 
importante es recordar que es válido sin importar la distribución de probabilidad de 
la población de interés siempre y cuando la varianza tenga un valor finito. A partir 
de (7.4), la desviación estándar de X es 


de (X)=0/vn, l (7.6) 


la cual, en algunas ocasiones, recibe el nombre de error estándar de la media. 

- Nótese que conforme el tamaño de la muestra crece, la desviación estándar, y de 
esta forma la variabilidad, de X disminuye. En otras palabras, si el tamaño de la 
muestra crece, la precisión de la media muestral para estimar la media poblacional 
aumenta. Por ejemplo, si se extrae una muestra aleatoria de n = 25, X deberá tener 
una precisión de V25 = 5 veces más de estimar la media poblacional que la que 
tendría una sola observación. Lo anterior es una propiedad muy ventajosa de la es- 
tadística Y dado que asegura que para una muestra relativamente grande, se espera 
que la realización de X se encuentre muy cercana a la media poblacional 4. Como 
ilustración adicional, supóngase que se calcula la desviación estándar de X para dis- 
tintos valores de n con ¢ = 10 y se grafican los puntos resultantes, como se indica 
en la figura 7.1. Por la naturaleza de 7.6, la desviación estándar de X sufre una dis- 
minución sustancial en su valor conforme n toma valores cada vez más grandes, 
pero si n es mayor de 30 o 40 este comportamiento cesa. Por lo tanto, en esencia, un 
tamaño grande de muestra no resulta razonable en cuanto al costo, si se hacen infe- 
rencias con respecto a u con base en X. 

A continuación se enuncia y demuestra un teorema con respecto a la distribución 
de muestreo de X si la muestra se encuentra constituida por n variables aleatorias in- 
dependientes normalmente distribuidas. 


Teorema 7.3 Sea X,, X,,..., X, una muestra aleatoria que consiste de n va- 
riables aleatorias independientes normalmente distribuidas con medias E(X) = H 
y varianzas Var(X;) = °, i = 1, 2, ..., n. Entonces la distribución de la media 


muestral X es normal con media p y varianza o°/n. 
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10- 20 30 40 50 60 70 80 90 100 


FIGURA 7.1 Comportamiento tipico de la desviación estándar de X como función del ta- 
maño de la muestra 


Demostración: Este teorema es un corolario del teorema 7.2. Esto es, sea a, = 1/n; 
dado que las medias y las varianzas son iguales, respectivamente, la función gene- 
radora de momentos de X es: 


pzas (eža) 


explut + (%0?)/2n], 


mX(0) 


Il 


Il 


que es la función generadora de momentos de una variable aleatoria normalmente 
distribuida con media q y varianza 0*/n. De esta forma, la función de densidad de 
probabilidad de X cuando se muestrea una población cuya distribución es normal, 
está dada por 


= 2 
x] - ae] -<x<o, (7.7) 


20° 


fO; u, 0/Vn) = x 


TO 


Ejemplo 7.3 Se tiene una máquina de llenado para vaciar 500 gr de cereal en una caja 
de cartón. Supóngase que la cantidad de cereal que se coloca en cada caja es una 
variable aleatoria normalmente distribuida con media 500 gr y desviación estándar 
igual a 20 gr. Para verificar que el peso promedio de cada caja se mantiene en 500 gr 
se toma una muestra aleatoria de 25 de éstas en forma periódica y se pesa el conteni- 


7.4 La distribución de muestreo de X 221 


do de cada caja. El gerente de la planta ha decidido detener el proceso y encontrar la 
falla cada vez que el valor promedio de la muestra sea mayor de 510 gr o menor de 
490 gr. Obtener la probabilidad de. detener el proceso: M 

Sean X, A X, 2.0) Xas váribles aleatorias independientes normalmente distribui- 
das, las cuales representan la cantidad de cereal contenido en las cajas de una mues- 
tra aleatoria dada. Por hipótesis X, ~ N(S00, 20), i = 1,2, ..., 25. Por el teo- 
rema 7.3, el promedio muestral X también se encuentra normalmente distribuido 
con media 500 y desviación estándar 20/y/25 = 4. La probabilidad deseada es 
igual a uno menos la probabilidad de que X se encuentre entre 490 y 510 gr; de esta 
forma 


P(Detención del proceso)= 1 — P(490 < X < 510) 


í - o < z< 227) 


1 — P(-2.5 < Z < 2.5) 
= 0.0124. 


Ejemplo 7.4 Demostrar que si X,, X,,..., X, son n variables aleatorias indepen- 
dientes exponencialmente distribuidas con función de densidad de probabilidad 


Fx; 0) = L expl- x/0) x>0, 
entre X tiene una distribución gama. 


Recuérdese que la función generadora de momentos de una variable aleatoria ex- 
ponencialmente distribuida es (l — 01)”'. De esta forma, para cada X, de la 
muestra, 


mx( = (1 - 61)". 


Del teorema 7.1 con a; = 1/n, i = 1,2, ..., n, se desprende que la función gene- 
radora de momentos de la media muestral ¥ es 


mx(t/n)mxLt/n) my (t/n) 
[1 — (0/17 "11 — (01/n)3* -= [1 — (91/n17" 
= (1 — (9/13 ”. 


milo) 


Pero la expresión anterior es la función generadora de momentos de una distribu- 
ción gama con parámetro de forma n y parámetro de escala 9/n. De acuerdo con lo 
anterior, cuando se muestrea una población cuya distribución de probabilidad es ex- 
ponencial, la densidad de probabilidad de X está dada por 


n -t expt-nz/oy.  1>0. (7.8) 
fŒ; n,0/n) = Ta Y exp(—nx/0), X7 
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Nótese que si en las expresiones (5.47) y (5.48) se reemplaza a con ny 0 con 0/n : 
se obtiene . n Gn i aht 


TEN E ¿to 


EX) = nÉ =0 09) 


2 


Var(X) = nS = /n, (7.10) 


como era de esperarse ya que 0 y 6? son la media y la varianza, respectivamente, de 
una variable aleatoria con distribución exponencial. 

De la sección 5.5, recuérdese que si el parametro de forma de una distribución 
gama tiene un valor grande, entonces los valores de probabilidad para una variable 
aleatoria gama pueden aproximarse, en forma adecuada, por una distribución nor- 
mal. Dado quer”, muestrear una distribución exponencial con parámetro 6 X tiene 
una distribución gama con media 6, y desviación estándar g/y/n , entonces, para n 
grande 


ASE 7.11) 


9/V 


D. 


es, en forma aproximada, N(0, 1). 


Ejemplo 7.5 Con base en los experimentos, la duración de un componente eléctrico 
se encuentra exponencialmente distribuida con una vida media de 100 horas. Si del 
proceso de producción se toma una muestra aleatoria de 16 componentes, ¿cuál es 
la probabilidad de que la vida media muestral sea mayor de 120 horas? 


De (7.9) y (7.10), la media de X en 100 horas y la desviación estándar tiene un 
valor de 100/16 = 25 horas. Si se supone que el valor del parámetro de forma n 
= 16 es suficientemente grande para emplear la aproximación dada por (7.11), se 
tiene 


120 — 100 


= 0.2119. 
25 ) 


P(X > 120) = lz> 


Por comparación, la probabilidad de que X > 120 pueda calcularse mediante el 
empleo directo de la función gama incompleta /(1, p), se encuentra definida por 
(5.55); en este caso u = (161(120)/1004/16 y p = 16 — l. De esta forma: 


P(X > 120) = 1 — (4.8, 15) = 0.2021. 


De manera muy breve se estableció ya que la distribución de muestreo de X es 
normal cuando éste se lleva a cabo a partir de una población que tiene una distribu- 
ción, ya sea normal o exponencial. ¿Qué ocurre cuado no puede especificarse la 
distribución de probabilidad de la población a partir de la cual se obtiene la muestra? 
Es decir, ¿cuál es la distribución de muestreo (aproximada) de X,sin tener en cuenta 
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la de las variables aleatorias de la muestra? Para obtener una idea con respecto a la 
distribución de muestreo de X cuando el modelo de probabilidad de la población de 
interés no se especifica, considérese un estudio de. simulación en el que los valores 
aleatorios se generan mediante los procedimientos dados en la sección 5.9. * 

- Supóngase que se generan 50 muestras, cada una de tamaño n = 10, a partir de 
una distribución de Poisson con parámetro A = 2. Para cada muestra se calcula la 
mediamuestral, produciéndose así 50 realizaciones de la estadística X. Estos valores 
se agrupan y se determinan sus frecuencias relativas. Se repite el proceso pero con 
n = 40 como tamaño de la muestra en lugar 10. Se repite el proceso pero en lugar de 
generar valores aleatorios a partir de una distribución de Poisson, se generan a partir 
de una distribución uniforme sobre el intervalo (0,1). En la figura 7.2 se ilustra la 
distribución de frecuencia relativa para cada uno de los cuatro casos. Nótese que 
cuando n = 10, no existe un patrón típico en la distribución de X. Sin embargo, cuan- 
do n = 40 la distribución de X definitivamente toma una forma de campana y de esta 
forma se procede auna distribución normal, tanto para el modelo de Poisson como 
para el uniforme. 


0.15 0.15 
0.10 0.10 
0.05 0.05 
a) Poisson, n = 10 > b) Uniforme n = 10 
0.20 0.20 
0.15 0.15 
0.10 0.10 
0.05 0.05 
c) Poisson, n = 40 d) Uniforme n = 40 


FIGURA 7.2 Distribuciones de frecuencia relativa de X cuando el muestreo se lleva a cabo 
sobre una distribución de Poisson o una uniforme para n = 10 y n = 40 
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Con base en este limitado estudio de simulación, parece ser que para un valor 
grande de n, la distribución de X es aproximadamente normal. De hecho, no impor- ` 
ta el tipo de-modelo de probabilidad a partir del cual se obtenga la muestra; mientras 
la media y la: varianza existan, la distribución de muestreo de X se encontrará apro- 
ximada por N(p, 'o/ Vn) para valores grandes de n. 

+ Lo anterior coñstituye uno de los más importantes teoremas en inferencia esta- 
dística, y se conoce como teorema central del límite. 


Teorema 7.4 Sean X,, X,, ..., X, n variables aleatorias IID con una distribución 
de probabilidad no especificada y que tienen una media q y una varianza a*finita. 
El promedio muestral X = (X, + X, + = + X,)/n tiene una distribución con 
media 4 y varianza g?/n que tiende hacia una distribución normal conforme » tien- 
de a œ. En otras palabras, la variable aleatoria (X — u)/(a/ V. n) tiene como limite 
una distribución normal estándar. (En un apéndice al final de este capítulo se pro- 
porciona un esbozo de la demostración d2 este teorema.) 


La esencia del teorema central del límite recae en el hecho de que para n grande, 
la distribución de (X — u)/(a/V/n) es, en forma aproximada, normal con media 
cero y desviación estándar uno sin importar cuál sea el modelo de probabilidad a 
partir del que se obtuvo la muestra. Debe notarse que si el modelo de probabilidad 
de la población es semejante a una distribución normal (esto es, si es simétrico y existe 
üna concentración relativamente alta alrededor del punto de simetría), la aproxima- 
ción normal será buena aun para pequeñas muestras. Por otro lado, si el modelo de 
la población tiene muy poco parecido a una distribución normal (por ejemplo, existe 
una alta asimetría), la aproximación normal sólo sera adecuada para valores rela- 
tivamente grandes de n. En muchos casos, puede concluirse de forma segura, que 
la aproximación será buena mientras n > 30. Por lo tanto, la variable alea- 
toria 


_X-u 

a/ y n 
se emplea para formular inferencias acerca de u cuando se conoce el valor de la va- 
rianza poblacional o°. La variable Z es N(0, 1) cuando el muestreo se lleva a cabo 


sobre una población que tiene una distribución normal y es, en forma aproximada, 
N(0, 1) para cualquier otro modelo cuando n es grande. 


Z 


(7.12) 


Ejemplo 7.6 Supóngase que el número de barriles de petróleo crudo que produce 
un pozo diariamente es una variable aleatoria con una distribución no especificada. 
Si se observa la producción en 64 días, seleccionados en forma aleatoria, y si se sabe 
que la desviación estándar del número de barriles por día es ø = 16, determínese la 
probabilidad de que la media muestral se encuentre a no más de cuatro barriles del 
verdadero valor de la producción por día. 


Puesto que n es lo suficientemente grande, la distribución de X es, en forma 
aproximada, normal con media u y desviación estándar o/ Vn = 16/1/64 = 2.En 
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forma equivalente, la distribución de Z = (X — p)/2 es, lei 


N(0, 1). De acuerdo con lo anterior, la probabilidad deseada e es: 
bio e: . 5 


` P(X — u <D = Piu =4<X< uA > WELY 
, X = Pla -4 = W/2 < Z < (p +4 0/2 
-0 E = P 2<Z<Ņ H l 
= 0.9544. 


7.5 La distribución de muestreo de $? 


Otra estadística importante empleada para formulə” inferencias con respecto a las 
varianzas de la población es la varianza muestral denotada por S°. Recuérdese que 
S? es una medida de la variabilidad e indica la dispersión o extensión entre las obser- 
vaciones. Dado que la dispersión es una consideración tan importante como la ten- 
dencia central, el significado de 5? para formular inferencias de o? es comparable 
con el que tiene X para formular inferencias con respecto a p. 

En esta sección se desarrollará la distribución de muestreo de $? cuando éste se 
lleva a cabo sobre una población que tiene una distribución normal. Para comenzar, 
es necesario suponer que u es conocida y g? no. Así, $? se encuentra definida por 


= Y (X; — u/n, (7.13) 
i=l 


en donde X,, X2, ..., Xn constituye una muestra aleatoria de una distribución nor- 
mal con media u y varianza o? desconocida. Para determinar una distribución de 
muestreo que permita hacer inferencias sobre o? con base en $? definida por (7.13), 
se enuncia y demuestra el siguiente teorema. 


Teorema 7.5 Sean X,, X,, ..., X, una muestra aleatoria de una distribución nor- 
mal con media y y varianza o. La distribución de la variable aleatoria. 


Y= Y (X, - pY/0 
i=l 
es del tipo chi-cuadrada con n grados de libertad. 


Demostración: Dado que X, ~ N(u, o) i = 1, 2, o n, Z =(X, — W/T 
define n variables aleatorias normales estándar independientes, se tiene: 


A 
i=l 


i 


ASA ER IN O TN 


A 
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Del teorema 7.1, dls as 


m(t) mz(t)mz(t) E maD ; ` 2 


a- 2021 -2y se. (1 — 29, 
dado que el cuadrado de tna variable aleatoria normal estándar tiene una distribu- 


ción chi-cuadrada con un grado de libertad (véase el ejemplo 5.14). De esta forma se 
tiene GE 


myt) = 0- 29772, 


que es la función generadora de momentos de una distribución chi-cuadrada con n 
grados de libertad. De acuerdo con lo anterior, Y ~ X?. 


Ejemplo 7.7 Considérese una medición física proporcionada por un instrumento 
de precisión, en donde el interés recae en la variabilidad de la lectura. Supóngase 
que, con base en la experiencia, la medición es una variable aleatoria normalmente 
distribuida con media 10 y desviación estándar igual a 0.1 unidades. Si se toma una 
muestra aleatoria procedente del proceso de manufactura de los instrumentos de ta- 
maño 25, ¿cuál es la probabilidad de que el valor de la varianza muestral sea mayor 
de 0.014 unidades cuadradas? 


Con base en el teorema 7.5, la probabilidad de que S? > 0.014, cuando el 
muestreo se lleva a cabo sobre N(10, 0.1) con n = 25 es igual a la de 


P(Y > ns*/0?) = PUY > (2510.014)/0.01] 
= P(Y > 35) 
l -— PU < 35) 


en donde Y ~ X4,. De la tabla E del apéndice, el valor de P(Y < 35) es, aproxima- 
damente, 0.9; de esta forma 


PY > 35) =0.1, 


y la probabilidad de que el valor de la varianza muestral sea mayor de 0.014 unida- 
des cuadradas, es alrededor de 0.1 para las condiciones dadas. 

Desde un punto de vista práctico, la varianza muestra tal como se encuentra defi- 
nida por (7.13) tiene poco uso, ya que es muy raro que se conozca el valor de la media 
poblacional x. De acuerdo con lo anterior, si se muestra una distribución normal con 
media y y varianza o”, la varianza muestral se define por 


S = Y (X; - X/(n - 1). (7.14) 

i=l 
En el capítulo ocho se verá por qué se emplea el divisor (n — 1). El reemplazo de la 
media desconocida p por la muestral X da origen a la presencia de otra estadística en 
la definición de $”. De esta manera, para determinar la distribución de muestreo de 
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se como se encuentra definida por (7.14), y con base en una muestra aleatoria pro- 
veniente dé una distribución normal, debe tomarse en cuenta el promedio de la mues- 
tra X. Como resultado se tiene que la distribución de muestreo de (n — 1)5/a? 
es también una distribución chi-cuadrada con n — 1 grados de libertad. A fin de 
probar lo anterior, primero se demostrará un teorema muy útil que involucra la 
suma de dos variables aleatorias independientes chi-cuadrada y entonces se escri- 
be la expresión (7.14) en una forma equivalente, con objeto de aprovechar este teo- 
rema. 


Teorema 7.6 Si X, y X, son dos variables aleatorias independientes y cada una 
tiene una distribución chi-cuadrada con v, y v, grados de libertad respectivamen- 
te, entonces: 


k Y = X; + X 


también tiene una distribución chi-cuadrada con v, + v, grados de libertad. 


Demostración: del teorema 7.1, la función generadora de momentos de Y es 
my(t) = mx (my (t) 
= (1-29 "21 - 207 
Z (1 — PI a 


que es la función generadora de momentos de una variable aleatoria chi-cuadrada 
con v; + v, grados de libertad. 

Ahora se deducirá la distribución de muestreo de (n — 1)5?/07?; de (7.14) se 
tiene que 


(n — DS = Y (X, - Xy; 
i=1 


pero 


3 


EI E 
i=l i=l 


= Y KX; - u) - Ë - wF 
i=l 


= Y (X; - u? - UX, - MX - p) + X - uy] 
=t 


Y (X, — Y — AUX — 2) (A — a) + MX — Y 


i=l i=1 


= Y (X; - u? - UX — nX — u) + nX — uY 


i=l 


?— nX ur. 


' 
M 
= 
E 
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De esta forma 


(n — DS + n(X — W = 5 - w. 
E i=ł. 
Al dividir ambos miembros de la expresión anterior por la varianza a poblacional o° 
se tiene 
n- DS nA- PIERCE Ar 


— = 7 ; 
o? a? T 


(n — DS? E - e) CE A Y 


a” Ca 

Del teorema 7.15, se desprende que %;.,(X, — u)/o” tiene una distribu- 
ción chi-cuadrada con n grados de libertad De manera similar, [((X — 4)/0/Vn]' 
también posee una distribución chi-cuadrada con un grado de libertad, dado 
que (X — u)/(a/Vn) es N(0, 1). Por lo'tanto, si se supone que (n — 1)5*/a” y 
[((X — u)/0/VnIson variables aleatorias independientes, entonces, por el teorema 
7.6, cuando se muestrea una población cuya distribución es normal con media y va- 
rianza desconocida, la distribución de (n — 1)5*/0”, es chi-cuadrada con n — gra- 
dos de libertad. Para demostrar la independencia se invita al lector a que consulte la 
referencia [3]. La función de densidad de probabilidad de Y = (n — 1)57/0* se 
desprende de (5.58) y está dada por: 


l lin- 0/21- 1 
DA exp(—y/2)  y>0, 
forn 1) = (Ma DAR” 0.16) 
0 para cualquier otro valor. 


Nótese que, dado que Y ~ X?_,, E(Y) = n — 1 y Var(Y) = 2(n — 1). 
Además, ya que Y = (n — 1)8?*/0?, S? = a?*Y/(n — 1). Por lo tanto 


E(Y) = a”, (7.17) 


ES) = tere tE 
(n — 1) 


g’ 4 


I s Var(Y) = TT 


Var(S?) = Var[oY/(n — Dl] = (7.18) 


7.6 La distribución ź de Student 


Se recordará de la sección 7.5 que cuando se muestrea una distribución normal con 
desviación estándar conocida ø, la distribución de Z = (X — u)/(@/Vn) es N(0, 


a at ii 


E e E S 
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1). Desde un punto de vista práctico, la necesidad de conocer ø impide formular in-: 
- ferencias con respecto a 4 debido a que generalmente no se conoce el valor de la 
desviación estándar de la población. «Dada. la: disponibilidad de.unáa muestra aleato- 
ria, el camino lógico que se sigue en éste caso es, reemplazar o cón una estimacións, 
que es el valor de la desviación estándar muestral S. Desafortunadamente, cuando lo 
anterior se lleva a cabo, la distribución de: (Y — mDIUS/Vn n) no es N(0, 1), aun 
cuando la muestra provenga de una distribución. normal. Sin embargo, es posible de- 
terminar la distribución de muestreo exacta de (X — a)/(S/Vn) cuando se 
muestrea N(u, 0), con 4 y a desconocidos. Para finalizar esta sección se exami- 
narán los aspectos teóricos de lo que se conoce como la distribución f de Student.* 

Supóngase que se realiza un experimento en que se observan dos variables aleato- 
rias X y Z; X tiene una distribución chi-cuadrada con » grados de libertad y Z una 
distribución normal con media cero y desviación estándar uno. Sea T otra variable 
aleatoria que es función de X y Z, de manera tal que 


Z 
VX/v 
Es decir, T se define como el cociente entre una variable aleatoria normal estándar y 
la raíz cuadrada de una variable aleatoria chi-cuadrada dividida por sus grados de li- 
bertad. El conjunto de todos los posibles valores de la variable aleatoria Tes el inter- 


valo (—%, œ) puesto que los valores de Z se encuentran en éste y los valores de X 
son positivos. El valor 


(7.19) 


Sez 

Vx/v 
recibe el nombre de valor de la variable aleatoria de t de Student. Lo anterior lleva al 
siguiente teorema. 


Teorema 7.7 Sea Z una variable aleatoria normal estándar y X una variable aleato- 
ria chi-cuadrada con v grados de libertad. Si Z y X son independientes, entonces la 
variable aleatoria 

Z 
VX/v 
tiene una distribución £ do Student con v grados de libertad y una función de densi- 
dad de probabilidad dada por 


TlG + 1/2] 
Varv T(w/2) 


La deducción de la función de densidad / de Student aparece en un apéndice al final 
de este capítulo. 


T= 


f(t v) = [L + E/E OA, -e<p<ow, v>0. (7.20) 


De (7.20) se observa que el parámetro de la distribución f es v, que, al igual que 
para la distribución chi-cuadrada, recibe el nombre de grados de libertad. Para cual- 


* W. Gosset, desarrolló en 1908 la distribución £, quien publicó su trabajo bajo el seudónimo de “Student”. 
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quier y > 0, la distribución f es simétrica con respecto al origen y la función de 
densidad tiene su valor máximo cuando f = 0. De la figura 7.3 es evidente que la 
forma de la función de densidad f.de Student es muy similar a la de la densidad nor- 
mal estándar y con los extremos de la distribución f menos pronunciados que los de 
la distribución normal. De hecho, conforme se tiene un número mayor de grados 
de libertad, la distribución £ de Student tiende hacia la normal estándar. 

Puede demostrarse que el valor esperado de T es 


ET)=0 v>l, (7.21) 
y la varianza está dada por 


Var(T) = v/(v — 2) y>2. (7.22) 
En la tabla F del apéndice se encuentran los valores cuantiles f,_.,, tales que: 
PS Dias) = Í fieovdt=1-a, 0Os<a<!, (7.23) 


para los distintos valores de v y de las proporciones acumulativas seleccionadas 
DES a. Por ejemplo, si v = 15. : 

P(T < tos.) = P(T < 1.341) = 0.90, 

P(T < to95.15) = P(T < 1.753) = 0.95, 

P(T S tu99.15) = P(T < 2.602) = 0.99. 


Dado que la distribución f es simétrica con respecto al cero, para œ > 0.5 los 
valores cuantiles f, a „ serán negativos pero sus magnitudes serán las mismas que las 


Densidad normal estándar 


0.4 
cd 
E 
3 03 
y 
[91] 
g 02 Densidad / de Student 
S — 
3 (y =3) 
e 


FIGURA 7.3 Comparación entre las densidades normal estándar y / de Student 
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de los correspondientes valores que se encuentran en el lado derecho. De esta prn; 
para v = 15, Ñ E 


PS tomas) = P(T < T ol | 
o P(T toosas) = PITS 1.753) = 0.05, 
P(T = tooi, y = PTs Bi 602) = 0.01. 


A fin de ilustrar la similitud que existe entre la distribución t de Student y la nor- 
mal estándar para valores relativamente grandes de v, en la tabla 7.3 se encuentra 
una comparación entre los valores cuantiles t y los correspondientes valores norma- 
les estándar para valores crecientes de y. Para æ = 0.1 o 0.05, la concordancia se en- 
cuentra en aproximadamente 0,05 unidades, aun para valores tan bajos de v como 
30. De hecho, muchos autores sugieren que, desde un punto de vista práctico, es 
muy poca la ganancia que se tiene al emplear la distribución £ de Student sn iugar de 
la normal estándar cuando v => 30. 

Recuérdese que para formular inferencias con respecto a u cuando el muestreo 
se lleva a cabo sobre una distribución normal con media y varianza desconocidas, se 
necesita determinar la distribución de (X — 1)/(S/Vn). Cuando se muestrea una 
distribución N(u, a) se sabe, del teorema 7.3, que la distribución de (X — )/(0/Vn) 
es N(0, 1). Para la misma condición, se sabe que, de (7.15) y del teorema 7.6, la 
distribución de (n — 1)5*/a” es chi-cuadrada con n — 1 grados de libertad. Dado 
que puede demostrarse que- X y S° son independientes, del teorema 7.7 se despren- 
de que la distribución de 


(n- DS  9/Vn VS 
(n — 1) 


T= = (7.24) 


es la £ de Student con n — 1 grados de libertad. 


TABLA 7.3 Comparación entre los valores cuantiles de las distribuciones ¢ de Student y nor- 
mal estándar 


Q lia li-a, 30 li-a.40 Doa so Si-a 
0.10 325 1.310 1.303 1.299 1.282 
0.05 1.725 1.697 1.684 1.676 1.645 
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Ejemplo 7.8 El Departamento de Protección al Medio Ambiente asegura. que, para 
un automóvil compacto en particular, el consumo de gasolina en carretera es de un 
galón por cada 45 millas. Una organización independiente de consumidores adquie- 


- re uno de estos sutomóviles y lo somete a prueba con el propósito de verificar la cifra 


proporcionada por el DPMA. El automóvil recorrió una distancia de 100 millas en 
25 ocasiones. En cada recorrido se anotó el número de galones necesarios para reali- 
zar el viaje. Los 25 ensayos, el valor promedio y la desviación estándar, tuvieron un 
valor de 43.5 y 2.5 millas por galón, respectivamente. Si se supone que el número de 
millas que se recorre por galón es una variable aleatoria distribuida normalmente, 
con base en esta prueba ¿existe alguna razón para dudar de la varacidad del dato 
proporcionado por el DONA? 


Este problema ilustra algunas de las dificultades prácticas que pueden encontrar- 
se al ponerse en práctica la noción de muestra aleatoria. En forma ideal, se debieron 
seleccionar 25 carros de la misma marca, modelo y configuración de motur, Że ma- 
nera aleatoria, del mismo proceso de armado, de m”nera que fuese posible conside- 
rar el consumo de combustible como una variable aleatoria. Sin embargo, en éste y 
otros, lo anterior representa un costo prohibitivo. A pesar de lo anterior, debe deter- 
minarse la veracidad de la información proporcionada por el DPMA con base en la 
probabilidad. Esto es, si u fuese realmente igual a 45 millas por galón, ¿Cuál es la pro- 
babilidad de que se observe un valor de X no mayor de 43.5 millas por galón, con base 
en una muestra de tamaño 25 y una estimación de ø igual a 2.5? 

De (7.24) puede verse que 


Y-p 4835-45 


s/n  2.5/V25 
x3 


es un valor de la distribución t de Student con 24 grados de libertad. De la tabla F del 
apéndice se tiene que P(T <= —3) < 0.005. Es decir, si el valor verdadero de la me- 
dia es 45, la probabilidad de observar un valor de T no mayor de — 3 unidades, es 
menor de 0.005. En cualquier caso, se ha observado algo que tiene una posibilidad 
de ocurrir menos de 5 en 1 000, o 4 tiene un valor real menor de 45. Para esta si- 
tuación es preferible elegir la segunda explicación. 


7.7 La distribución de la diferencia entre dos medias muestrales 


En muchas ocasiones surge la necesidad de comparar las medias de dos distribucio- 
nes distintas. Por ejemplo, supóngase que se tiene interés en comparar los tiempos 
de duración promedio de las baterías para automóvil **48 meses ” de las marcas 
Mears and Sawbuck y J.C. Nickel. Las baterías vendidas por dos comerciantes, de ma- 
nera factible, se producen por compañías distintas y se fabrican bajo diferentes espe- 
cificaciones. Para cada una se supondrá que existe una distribución, diferente de la 
otra, que toma en cuenta la duración de las baterías. 
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` Sea X una variable aleatoria que representa la duración del acumulador Mears 

. and Sawbuck, en forma que X ~ N(p y, 0). De manera similar, sea Y la'correspon- 

diente variable aleatoria para las baterías J.C. Nickel tal que Y ~ N(u ro 0). Nótese 

. que se supone que las varianzas de X y Y son iguales. Se selecciona una muestra alea- 
toria de n., baterías de la marca Mears and Sawbuck y una muestra aleatoria de n, 

_de la marca J.C. Nickel. Los acumuladores de las dos muestras se someten a la 
“misma prueba de duración en la que se controlan todos los factores externos identifi- 
cados. Las diferencias observadas para los tiempos de duración en ambas marcas se 
deben sólo a la variabilidad inherente del proceso de fabricación respectivo. El inte- 
rés recae en formular una inferencia con respecto a la diferencia ty — uy entre las 
dos medias desconocidas. 

Un enfoque viable para este problema es formular la inferencia con base en la 
diferencia que hay entre las dos medias muestrales X y Y. De acuerdo con lo ante- 
rior, se necesita obtener la distribución de X — Y cuando el muestreo se lleva a cabo 
sobre dos poblaciones normales independientes con varianzas iguales. Si se supone 
que el valor de la varianza o? se conoce del teorema 7.3, se sabe que la distribución 
de X es normal con media uy y varianza 0*/ny. La distribución de Y también es 

` normal pero con media uy y varianza o°/ny. Dado que X y Y son variables alea- 
torias independientes normalmente distribuidas, sia, = 1 y a, = —1 en el teo- 
rema 7.2, la distribución de X — Y también es normal con media Mx — My y va- 
rianza (0*/ny) + (o?/ny) = a (1/ny + 1/ny). Por lo tanto, si se conoce el valor de 
o”, la distribución de 


E X- Y- (1x7) (7.25) 


es M(0, 1). La expresión (7.25) proporciona un camino adecuado por medio del cual 
se puede formular una inferencia con respecto a la diferencia de las medias poblacio- 
nales de dos distribuciones normales independientes con igual varianza. 

En el desarrollo de (7.25) se supuso que el valor de g? era conocido. Sin embar- 
go, es poco probable conocer el valor de a? para una situación real. Así pues, debe 
obtenerse la distribución de X — Y cuando el muestreo se lleve a cabo sobre dos 
poblaciones normales independientes con varianzas iguales pero desconocidas. Para 
cada una de las dos muestras aleatorias, pueden definirse las varianzas muestrales 
S} y S} dadas por (7.14). Dado que (ny — 1)S7/0” y (ny — 1)Sj/0? son dos va- 
riables independientes chi-cuadrada, con ny — 1 y ny — l grados de libertad 
respectivamente, por el teorema 7.6, la distribución de 


mE (nx DS% EN (ny — DS, (7.26) 
T` o 


también es chi-cuadrada con ny + ny — 2 grados de libertad. De la expresión 
(7.19) se desprende el hecho de que el cociente de Z en (7.25) y la raíz cuadrada de W 
divida entre sus grados de libertad tiene una distribución f de Student con ny + ny — 2 
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grados de libertad. Esto es, 


E E l l ies Ne 
X — Y — (ix — -— += AS: i 
f 2 Hx Anta ny. My X — Y - (px — ay) 


[ing = DS% + (ny + DSH/ finr- DS + (ny — u Twel ) 
h nx +ny-2 ny ny 


ny + ny—2 


o 
saae a - m) ai 
— + — 
Sp Nyx Ry 
en donde 
S? = [(1x — DSz + (ny ~ DS]/(nx + ny — 2) (7.28) 


que, en general, recibe el nombre de estimador combinado (pooled) de la varianza 
común g°. Nótese de (7.28) que S es el promedio, con factores de peso, de las dos 
varianzas muestrales S% y S3, siendo los factores de peso los grados de libertad. De 
acuerdo con lo anterior, se puede formular una inferencia con respecto a la diferen- 
cia entre 4y y My con base en (7.27), cuando el muestreo se lleva a cabo sobre dos 
poblaciones cuyas distribuciones son anormales e independientes y en donde las va- 
rianzas son iguales pero sus valores no se conocen. 

En este momento es natural que el lector pregunte qué pasa si no es posible supo- 
ner que la varianza de las dos distribuciones sea la misma. Si las varianzas 0% y o} 
no son iguales, pero se conocen sus valores, el problema es sencillo. La distribución de 


za- Y- Wx- 49) (7.29) 


nyx Ry 


aún es N(0, 1), por las mismas razones que llevaron a la expresión (7.25). Por otro 
lado, si se desconocen los valores de las varianzas y además éstos no son iguales, el 
problema es mucho más complicado y por esta razón no debe emplearse la expresión 
(7.27). En esencia, una situación como la anterior constituye lo que se conoce como 
el problema de Fisher-Behrens, el cual se encuentra más allá del alcance de este libro. 
Existen algunas aproximaciones a este problema, una de la cuales puede encontrarse 
en [1]. 


7.8 La distribución F 
2 


De la sección 7.5, recuérdese que las inferencias con respecto a a” cuando se 
muestrea una distribución normal, se formulan con base en la estadística (n — 1)5? 
/a”, la que tiene una distribución chi-cuadrada con n — 1 grados de libertad. En esta 
sección se desarrollará la estadística apropiada para emplearse en la formulación de 
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inferencias con respecto a las varianzas de dos distribuciones normales independien- 
tes con base en las muestras aleatorias de cada una. Por último, se analizará la teoría 
de una distribución muy útil, la cual se conoce como distribución F.. e 

Supóngase un experimento en que se observan dos variables aleatorias indepen- 
dientes X y Y, cada una con una distribución chi-cuadrada con v, y v grados de li- 
bertad respectivamente. Sea F una variable aleatoria que es función de X y Y, de ma- 
nera tal que AS 


Al 


Y/v' (7.30) 


Esto es, la variable aleatoria F es el cociente de dos variables aleatorias chi-cuadra- 
da, cada una dividida por sus grados de libertad. Lo anterior lleva al siguiente teorema. 


Teorema 7.8 Sean X y Y dos variables aleatorias independientes chi-cuadrada 
con y, y v, grados de libertad, respectivamente. La variable aleatoria 


-Xlv 
= Y/v, 


tiene una distribución F con una función de densidad de probabilidad dada por 


Piw, + 23/2034 v3? 
2e(£ vi, v)* = F(v,/21(w,/2) 


0 para cualquier otro valor 


(vı -2)/2 — (m1 + 12)/2 
J (v aa vif) f>0, (7.31) 


(La deducción de la función de densidad de probabilidad de F es similar a la de la £ 
de Student y se deja como ejercicio para el lector.) 


La distribución F se caracteriza completamente por los grados de libertad v, y »,. 
Puede demostrarse que el valor esperado es 
EF) = n/m -2 n>2, (7.32) 
y la varianza está dada por 
vi(2v, + 2v, — 4) 


EE v (1, — 2) (0, — 4) 


vm>4, (7.33) 


La distribución F tiene asimetría positiva para cualesquiera valores de v, y vz, pero 
ésta va disminuyendo conforme v, y v, toman valores cada vez más grandes. 
En la tabla G del apéndice, se encuentran los valores cuantiles fı - ..,,.,.» tales que 


A a,r].r2 
PEA cal | af vdd =1= a, 0<as=l (30 


4 
* Se emplea g para denotar la función de densidad y de esta forma evitar cualquier confusión con res- 
pecto al argumento f. 
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para las proporciones acumulativas seleccionadas.1..— « y distintas combinaciones 
de los grados de libertad del numerador v}, y- del denominador - » del cociente 


(7. dd Por is dl si. e ¿Sy n = m anoe a A g 
l o ' 


PE < fasos.0) = PF < 2.52) = 
PF = foo 510) == P(F< 3.33) = 0.95, 
P(F = fos.s.10) = P(F = 5.64) = 0.99. 


Nótese que en la tabla G se encuentran los valores cuantiles f; _...,... Únicamente para 
a < 0.5. Si se desean los cuantiles del lado izquierdo (es decir, para a > 0.5) és- 
tos pueden encontrarse mediante el siguiente procedimiento: si la variable aleatoria F tie- 
ne una distribución F con v, y v, grados de libertad, entonces la variable F' = 1/F 
también tiene una distribución F pero con v, y v, grados de libertad. Puede verse 
que lo anterior es cierto, a ¿ar**r de (7.30), 


1 Y/v, 
’ = ——= > 7.35 
e X/v, X/v, ( ) 
Y/v; 
Si se desean los valores cuantiles f,_..,,,, para a > 0.5, 
PF =f- y=p(L> ) aia 
DA F Nata 
o 
rl: Seh ) (7.36) 
sS = (. f 
F firavn 


Pero I/F = F' ~ F se encuentra distribuida con v, y v, grados de libertad. 
Entonces el «-ésimo valor cuantil de F’ es tal que 


PE S fenn) 2. (7.37) 


Dado que (7.36) y (7.37) son idénticas, se sigue que 
fanmim Vf, “VI. v? 


l Siren z: ¡TACA for a > 0.5. (7.38) 
Como ejemplo, sea v, = 8 yv» = 12. Entonces 
PIES fosg) = PIES 1/foos128) = PIF < 1/3.28) = PIF < 0.305) = 0.05, 
10) 


PE S fooga) = P(F < 1/fos9128) = PF <s 1/5.67) = P(F < 0.176) = 0.01. 


` dx. También sea Y,, Y,, ..., Y 
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Regresando al problema de desarrollar una estadística apropiada para usarse en. 
la formulación de inferencias con respecto a las varianzas de dos distribuciones nor- 
males independientes, sea X',, X3, ..., X,, una muestra aleatoria de variables aleáto- 
rias independientes y normalmente distribuidas cada una con media Hx y varianza. 
ny Un conjunto de ny variables aleatorias indepen- 
dientes normalmente distribuidas. cada una con media 4, y varianza or. Si se supo- 
ne`que las X y las Y son inoependintes, las estadisticas 


(nx — 1)Sx/0% 


(ny — DSy/0y 


son dos variables aleatorias chi-cuadrada iudependientes con ny — 1y ny — l gra- 
dos de libertad, respectivamente. Entonces, por el teorema 7.8, se desprende que la 


variable aleatoria 
aa 2 
Cr 1S; / MEA 
Tx Sx Tx 


wa- De / "Sea 
(ny PÈ S n- à sloh 
Ty 


tiene una distribución F con ny — l y ny — 1 grados de libertad. 

Una aplicación de (7.39) es inmediata si se recuerda el problema general de la sec- 
ción 7.7. Esto es, el formular una inferencia con respecto a la diferencia entre dos 
medias poblacionales ya sea cuando se conocen las varianzas de las poblaciones o 
cuando se supone que se conoce, al menos, el cociente de éstas. Una forma factible 
de verificar la validez de esta suposición es mediante el empleo de (7.39). Si la supo- 
sición de que dz = ar, es correcta, la estadística F dada por (7.39), se reduce a 


(7.39) 


F = S/S}. (7.40) 


Cuando se obtienen los valores de S} y S} a partir de las muestras y se calcula el 
cociente (7.40), puede concluirse que la hipótesis de varianza iguales es falsa si el valor 
de este cociente es, de manera suficiente, distinto de 1. En otras palabras, si las dos 
varianzas son iguales, la probabilidad de observar un valor de F distinto, de manera 
suficiente, es pequeña. 

Para finalizar, debe notarse que en esta sección, asi como en las secciones 7.5 y 
7.7, se desarrolló el material que se presentó bajo la hipótesis de realizar un 
muestreo aleatorio sobre poblaciones que tienen una distribución normal. En la rea- 
lidad, la hipótesis de normalidad puede o no ser justificable. Sin embargo, desde un 
punto de vista práctico, el lector debe darse cuenta que la diferencia entre la distribu- 
ción normal y el modelo de probabilidad de la población de interés es inversamente 
proporcional a las técnicas delineadas para formular inferencias. La afirmación an- 
terior es particularmente cierta cuando se formulan inferencias con respecto a las va- 
rianzas cuando se emplean la distribución chi-cuadrada o la F. 
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Ejercicios 


7.1. 


72. 


7.3. 


7.4. 


7.5. 


7.6. 


7.7. 


7.8. 


Una firma de mercadotecnia envía un cuestionario a 1 000 residentes de cierto suburbio 
de una ciudad para determinar sus preferencias como compradores. De los 1 000 resi- 
dentes, 80 responden el cuestionario. ¿Lo anterior constituye una muestra aleatoria? 
Discutir los méritos de este procedimiento para obtener una muestra aleatoria. 


En una planta de armado automotriz se seleccionarán 50 de los primeros 1 000 automó- 
viles de un nuevo modelo para ser inspeccionados por el departamento de control de ca- 
lidad. El gerente de la planta decide inspeccionar un automóvil cada vez que terminan 
de armarse 20. ¿Este proceso dará como resultado una muestra aleatoria? Comente. 


Si X,» Xp» -.., X, constituye una muestra aleatoria, obtener las funciones de verosimili- 
tud de las siguientes distribuciones: 


a) 'De Poisson, con parámetro A; 

b) Hipergeométrica, con parámetro p; 
c) Uniforme en el intervalo (a, b);. 

d) N(1,0). 


Repetir el ejercicio 7.3 para las siguientes distribuciones: 


a) Gama con parámetro a y 6, 
b) Weibull con parámetro a y 0. 


Sea Xi, X2, ..., A, una muestra aleatoria de una población cuya distribución es 
normal con media u y varianza o? desconocidas. De las siguientes, ¿cuáles son esta- 
dísticas? 


a) EX,— p d) X? + X} — expíX,) 

b) oX, + oX, e) Xi/T, i =1,2,.. n 

co) X, ¡=1,2...n f) XX; — XF 

Sean X,, X2, .... X, n variables aleatorias independientes de Poisson con parámetros 
My, Az, > Àn, respectivamente. Mediante el empleo de la función generadora de mo- 


mentos, demostrar que la suma de estas variables también es una variable aleatoria de 
Poisson con parámetros A, + Az + ++ + Ay. 


Sean X, y X, dos variables aleatorias independientes de Poisson con parámetros A, y 
A, respectivamente. Demostrar que la diferencia entre X, y X, no es una variable alea- 
toria de Poisson. 


Sean X, y X, dos variables aleatorias independientes binomial con parámetros n, y p, y 
n: y P, respectivamente. Demostrar que la suma de X, y X, es una variable aleatoria bi- 
nomial con parámetros n, + n, y p. 
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Sean X,'y X, dos variables aleatorias independientes distribuidas exponencialmente con 


. el mismo parámetro .9. Demostrar que la suma de X, y X, es una variable aleatoria gama 


7.10. 


7.11. 


con parámetro de. forma 2 y parámetro de escala 6. 


Para un determinado nivel de ingresos, el Departamento de Hacienda sabe que las canti- 
dades declaradas por concepto de deducciones médicas (X,), contribuciones caritativas 
(X,) y gastos varios (X 3), son variables aleatorias independientes normalmente distribui- 
das con medias $400, $800 y $100 y desviaciones estándar $100, $250 y $40, respectiva- 
mente. 


a) ¿Cuál es la probabilidad de que la cantidad total declarada por concepto de estas tres 
deducciones, no sea mayor de $1 600? 

b) Si una persona con este nivel de ingresos declara por concepto de estas deducciones 
un total de $2 100, ¿qué tan probable es tener una cantidad igual o mayor a este 
monto bajo las condiciones dadas? 


Una tienda de artículos eléctricos para el hogar vende tres diferentes marcas de refrige- 
radores. Sean X,, X, y X; variables aleatorias las cuales representan el volumen de ventas 
mensual para cada una de las tres marcas de refrigeradores. Si X,, X, y X; son variables 
aleatorias independientes normalmente distribuidas con medias $8 000, $15 000 y 


` $12 000, y desviaciones estándar $2 000, $5 000 y $3 000, respectivamente, obtener la 


7.12 


probabilidad de que, para un mes en particular, el volumen de venta total para los tres 
refrigeradores sea mayor de $50 000. 


En una tienda de servicio el tiempo total del sistema consta de dos componentes (el lap- 
so de tiempo que debe esperarse para que el servicio dé comienzo (X,) y el lapso de tiem- 
po que éste dura (X,)). Si X, y X, son variables aleatorias independientes exponencial- 


- mente distribuidas con un tiempo medio de 4 minutos cada una, ¿cuál es la probabilidad 


7.13. 


7.14. 


7.15. 


7.16. 


de que el tiempo total que tarda el sistema en proporcionar el servicio no sea mayor de 
15 minutos? (Sugerencia: consulte el ejercicio 7.9.) 


Sea X,, X, ..., X, una muestra aleatoria de una población que tiene una distribución 
gama con parámetros œ y 9. Mediante el uso de la función generadora de momentos, 
demostrar que la distribución de la media muestral X también es de tipo gama, con pa- 
rámetros de escala y de forma iguales a na y 0/n respectivamente. 


Mediante el empleo de los resultados de la sección 5.9, generar números aleatorios para 
las distribuciones binomial y exponencial y usarlos para demostrar el teorema central del 
límite. De manera específica, para n = 10 y n = 40, generar 50 muestras de una distri- 
bución binomial con p = 0.4. Repetir el procedimiento anterior generando $0 muestras 
de una distribución exponencial con parámetro 9 = 100. ¿Se ha demostrado el teorema 
central del límite en un grado razonable? 


Para cierta prueba de aptitud se sabe con base en la experiencia que el número de acier- 
tos es 1 000 con una desviación estándar de 125. Si se aplica la prueba a 100 personas se- 
leccionadas al azar, aproximar las siguientes probabilidades que involucran a la media 
muestral X. 


a) P(985 < X < 1015)  c) P(X > 1020) 
b) P960 < X< 1040) d) P(X < 975) 


Un contratista piensa comprar una gran cantidad de lámparas de alta intensidad a cierto 
fabricante. Éste asegura al contratista que la duración promedio de las lámparas es de 
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1 000 horas con una desviación estándar igual a 80 horas. El contratista decide comprar 
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7.19. 


7.20. 


7.21. 


7.22. 


7.23. 


7.24, 


7.25. 


las lámparas sólo si una muestra aleatoria de 64 de éstas da como resultado una vida 
promedio de por lo menos 1 000 horas.-¿Cuál es la probabilidad de que el contratista 


¡adquiera l: las lámparas? | 


Un inspector federal de pesos y medidas visita una planta de cdo para verificar 


^ que el peso neto de las cajas sea el indicado en éstas. El gerente de la planta asegura al 


inspector que el peso promedio de cada caja es de 750 gr con una desviación estándar 
de 5 gr. El inspector selecciona, al azar, 100 cajas y encuentra que el peso promedio 
es de 748 gr. Bajo estas condiciones, ¿qué tan probable es tener un peso de 748 o me- 
nos? ¿Qué actitud debe tomar el inspector? 


En la fabricación de cojinetes para motores, se sabe que el diametro promedio es de 5 
cm con una desviación estándar igual a 0.005 cm. El proceso es vigilado en forma perió- 
dica mediante la selección aleatoria de 64 cojinetes, midiendo sus correspondientes 
diámetros. El proceso no se detiene mientras la probabilidad de que la media muestral se 
encuentre entre dos límites especificados sea de 0.95. Determinar el valor de estos Ímites. 


En la producción de cierto material para soldar se sabe que la desviación estándar de la 
tensión de ruptura de este material es de 25 libras. ¿Cuál debe ser la tensión de ruptura 
promedio del proceso si, con base en una muestra aleatoria de 50 especímenes, la proba- 
bilidad de que la media muestral tenga un valor mayor de 250 libras es de 0.95? 


Genere $0 muestras, cada una de tamaño 25 a partir de una distribución normal con me- 
dia 60 y desviación estándar 10. Calcule la varianza de cada muestra mediante el empleo 
de (7.14). 


a) Obtener la media y la varianza de S? mediante el empleo de los 50 valores calculados. 
¿Cómo son estos valores al compararlos con los proporcionados por las expresiones 
(1.17) y (7.18)? 

b) Agrupar los 50 valores calculados de S? y graficar las frecuencias relativas. Combates 
sobre los resultados. 


Repetir el ejercicio 7.20 pero generando los valores aleatorios a partir de una distribu- 
ción exponencial con parámetro de escala © = 30. Haga un comentario sobre sus resul- 
tados. 


Para un gerente de planta es muy importante controlar la variación en el espesor de un 
material plástico. Se sabe que la distribución del espesor del material es normal con una 
desviación estándar de 0.01 cm. Una muestra aleatoria de 25 piezas de este material da 
como resultado una desviación estándar muestral de 0.015 cm. Si la varianza de la 
población es (0.01) cm, ¿cuál es la probabilidad de que la varianza muestral sea igual 
o mayor que (0.015)" cm”? Por lo tanto, ¿qué puede usted concluir con respecto a la va- 
riación de este proceso? 


Si se obtiene una muestra aleatoria de n = 16 de una distribución normal con media y 
varianza desconocidas, obtener P(S7/07 < 2.041). 


Si se obtiene una muestra aleatoria de tamaño » = 21 de una distribución normal con 
media y varianza desconocidas, obtener P(S*/0* < 1.421). 


Un fabricante de cigarrillos asegura que el contenido promedio de nicotina, en una de 
sus marcas, es de 0.6 mg por cigarrillo. Una organización independiente mide el conteni- 
do de nicotina de 16 cigarrillos de esta marca y encuentra que el promedio y la desvia- 


e 
PA aw 


- . ción estándar muestral es de 0.75 y 0.175 mg, respectivamente, de nicotina. Si se supone 


7.26. 


7.27. 


7.28. 


7.29. 


7.30. 


"promedio fueron de $1 800 y $200, respectiv. 


_que la cantidad de nicotina en estos cigarrillos es una variable aleatoria normal, ¿qué 


tan probable es el resultado muestral dado ej dato proporcionado por el fabricante? . 


Durante los 12 meses pasados el volumen diario de ventas de un restaurante fue de 
$2 000. El gerente piensa que los próximos 25 días serán típicos con respecto al volumen 
de ventas normal. Al finalizar los 25 días, el volumen de ventas y su desviación estándar 

e Supóngase que el volumen de ven- 
tas diario es una variables aleatoria normal. Si usted fuese el gerente, ¿tendría alguna ra- 
zón para creer, con base en este resultado, que hubo una disminución en el volumen de 
ventas promedio diario? 


El gerente de una refinería piensa modificar el proceso para producir gasolina a partir 
de petróleo crudo. El gerente hará la modificación sólo si la gasolina promedio que se 
obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su 
valor con respecto al proceso en uso. Con base en un experimento de laboratorio y me- 
diante el empleo de dos muestras aleatorias de tam-ño 12, una para cada proceso, la 
cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación están- 
dar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación estándar de 2.7. 
El gerente piensa que los resultados proporcionados por los dos procesos son variables 
aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en 
esta evidencia, ¿debe adoptarse el nuevo proceso? 


Una organización independiente está interesada en probar la distancia de frenado a una 
velocidad de 50 mph para dos marcas distintas de automóviles. Para la primera marca 
se seleccionaron.nueve automóviles y se probaron en un medio controlado. La media 
muestral y la desviación estándar fueron de 145 pies y 8 pies, respectivamente. Para la se- 
gunda marca se seleccionaron 12 automóviles y la distancia promedio resultó ser de 132 pies 
y una desviación estándar de 10 pies. Con base en esta evidencia, ¿existe alguna razón para 
creer que la distancia de frenado para ambas marcas, es la misma? Supóngase que las 
distancias de frenado son variables aleatorias independientes normalmente distribuidas 
con varianzas iguales. 


La variación en el número de unidades diarias de cierto producto, el cual manejan 
dos operadores A y B, debe ser la misma. Con base en muestras de tamaño n, = 16 
días y ng = 21 días, el valor calculado de las desviaciones estándar muestrales es de 
Sa = 8.2 unidades y sz = 5.8 unidades. Si el número de éstas, manejadas por los dos 
operadores, por día, son dos variables aleatorias independientes que se encuentran 
aproximadas, en forma adecuada, por distribuciones normales, ¿existe alguna ra- 
zón para creer que las varianzas son iguales? 


Con base en la información proporcionada en el ejercicio 7.27, ¿existe alguna razón 
para creer que las varianzas de los dos procesos son iguales? 


APÉNDICE 


Demostración del teorema central del limite 


El propósito de este apéndice no es el presentar una demostración general y elegante 
desde el punto de vista matemático, sino más bien proporcionar un esbozo de la de- 
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mostración del teorema central del límite. Se quiere demostrar que la función gene- 
radora de momentos de (Y — p)/ (a/ Vn y tiende a la del una estribución normal 
estándar conforme n tiende al infinito. Sean ~ 


Z= (X, plo i= 1,2, an, 


Dado que 


SS Ll S A A l. 
15 (2#) - n = >, (X; y) = A nu) a/Vn' 


entonces 


Como resultado se tiene que la función generadora de momentos de Y es igual a la 
función generadora de momentos de (1/ Vn) E_, Z;. Del teorema 7.1, 


my(t) = [mz ((/V/m)Y 
= (Elexp(tZ,/ VW, 
dado que las Z, son variables aleatorias independientes. 


Al expander (tZ;/ yn) en una serie de Taylor: 


as t? 
exp(1Z;/Vn) = 1 + 77 + Las mn a 
Si se toman los valores esperados y se recuerda que E(Z,) = 0 y Var(Z) = l,i = 
1, 2, ..., n, se tiene 


= t t 
Elexp(1Z,/Vn)] = 1 + S zpr EZ) Po 


De acuerdo con lo anterior 


t t? E n 
my(t) = | I+ Fn + pr EZ) + a 


e Ñ 
= fi + E aa ) + =J} 
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en donde 


Ahora 
; NY” 
im m(t) = im (1 + £) ; 
n—x n—x n 


pero por definición 


n 
im(1 + ») =e", 
n>x n 
Lo anterior da como resultado una situación idéntica a la que se tiene en la de- 
mostración del teorema 5.1. Esto es, conforme n—>x*x, todos los términos en u, ex- 
cepto el primero, tienden hacia cero debido a que todos tienen potencias positivas de 
n en sus denominadores. Por lo tarto, puede deducirse que 


lim my(t) = exp(1?/2), 


o la distribución límite de Y = (X — )/(o/Vn) es la normal estándar para valo- 
res grandes de n. 


APÉNDICE 
Deducción de la función de densidad de probabilidad £ de Student 


Sea T una variable aleatoria definida por (7.19). Considere la densidad de probabili- 
dad de T cuando X se mantiene fija en un valor x. Dado que 


1 
fAz) = —=exp(—2?/2), 


V2r 
la densidad de probabilidad condicional de 
T = Z/[(x/vy" 
se obtiene al considerar la relación inversa 
Z =(x/v)" T 


y al sustituir en £(z). en donde el jacobiano de la transformación es 


dz _ 1/2 
re (xy. 
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De esta forma 


- L/P)Pexp(—x1?/2v), -a<1<w, x>0, 
falx) To 


De (6.19) se sabé que la densidad conjunta de T y X es 
Ft, x) = FOO. 
Dado que X — X?, 


filo) = 


l 
sem x =x/2, x>0. 


De esta forma 


fit. Xx) = A mo — > 
V2mv 2"T(v/2) 277 


w- 1/2 


= cx exp(— c,x/2), 


en donde c; = 1/[V2v 2"*T(w/2)] y o = [1 + (1*/v)]. Integrando f(t, x) con 
respecto a x, se obtiene la función de densidad de probabilidad de la distribución 1 de 
Student. De acuerdo con lo anterior - 


frd =c | x” exp(— c:x/2)dx 


e, f (2y/c,)"7""exp(—y)Q/c,)dy, en donde y = c,x/2 y dx = (2/cı)dy 


I) 


ci(2/c ya? 1/2 |, y” expl — y)dy 


= (1/0) *P"2T[G + 1/2] 


1 9+ 1/2 
Vrv 2T(v/2) ` [i + (P/v et e 


TI + 1/2) 
Vrv T(v/2) 


F[( + 1)/2] 


(+ 1)/2 
+ (/v) . -Æ <1p<o, 


CAPÍTULO OCHO ios 


EEATT: S ET. A 


Estimación puntual 
y por intervalo 


8.1 Introducción 


En el capítulo anterior se mencionó, en forma breve, que las estadísticas se emplean 
para estimar los valores de parámetros desconocidos o funciones de éstos. En este 
capítulo se examinará con detalle el concepto de estimación de parámetros mediante 
la especificación de las propiedades deseables de los estimadores (estadisticas) y el 
desarrollo de técnicas apropiadas para implementar el proceso de estimación. Se uti- 
lizará el punto de vista de la teoría del muestreo, que considera a un parámetro como 
una cantidad fija pero desconocida. 

La estimación de un parámetro involucra el uso de los datos muestrales en con- 
junción con alguna estadística. Existen dos formas de llevar a cabo lo anterior: la es- 
timación puntual y la estimación por intervalo. En la primera se busca un estimador 
que, con base en los datos muestrales, dé origen a una estimación univaluada del va- 
lor del parámetro y que recibe el nombre de estimado puntual. Para la segunda, se 
determina un intervalo en el que, en forma probable, se encuentra el valor del pará- 
metro. Este intervalo recibe el nombre de intervalo de confianza estimado. 

Al igual que en los capítulos anteriores, la función de densidad de probabilidad 
en la distribución de la población de interés se denotará por fx; 0), donde la función 
depende de un parámetro arbitrario 0, el cual puede tomar cualquier valor que se 
encuentre en cierto dominio.* De esta forma, el principal objetivo de este capítulo es 
presentar los criterios convenientes para la determinación de los estimadores de 0. 


8.2 Propiedades deseables de los estimadores puntuales 


Con el propósito de mostrar la necesidad de estimar parámetros, considérese la si- 
guiente situación. Cuando se obtiene una muestra aleatoria de cierta característica X 


* El dominio de un parámetro recibe el nombre de espacio parametral. 


petn- 
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de la distribución de la población, y a pesar de que pueda identificarse la forma fun- 
cional de la densidad de ésta, es poco probable que la característica pueda especifi- 
carse de manera completa mediante los valores de todos los parámetros. En esencia, 
se conoce la familia de distribuciones a partir de la cual se obtiene la muestra, pero 
no puede identificarse el miembro de interés de ésta, ya que no se conoce el valor del 
parámetro. Este último tiene que estimarse con base en los datos de la muestra. Por 
ejemplo, supóngase que la distribución del tiempo de servicio en una tienda es expo- 
nencial con parámetro desconocido 0. Se observan 25 lapsos aleatorios y la media 
muestral calculada es igual a 3.5 minutos. Dado que para la distribuciñ exponencial 
E(X) = 0, un estimado puntual de 9 es 3.5. Por lo tanto, de manera aparente, el 
muestreo se llevó a cabo sobre una distribución exponencial cuya media estimada es 
de 3.5 minutos. 

Es posible definir muchas estadísticas para estimar un parámetro desconocido 6. 
Por ejemplo, para el caso anterior pudo elegirse la mediana muestral para estimar el 
valo. de ia media. Entonces, ¿cómo seleccionar un buen estimador de 0? ¿Cuáles 
son los criterios para juzgar cuándo un estimador de 0 es ““bueno”” o ““malo””? De 
manera intuitiva, ¿qué es un buen estimador? Si se piensa en términos de ““estima- 
dores humanos”” como los que se encuentran en las compañías grandes de construc- 
ción, entonces quizá un buen estimador sea aquella persona cuyas estimaciones 
siempre se encuentran muy cercanas a la realidad. Como ejemplo adicional, suponga 
que un grupo de personas se encuentra al tanto del volumen de ventas y adquisi- 
ciones de tres comerciantes (A, B y C) quienes compiten en el mismo mercado. 
Como el inventario es siempre un aspecto importante en los negocios, cada uno de 
estos comerciantes predice la demanda mensual de sus productos y, con base en ésta, 
realizan las adquisiciones necesarias. Supóngase que se determina la diferencia entre 
las demandas real y la esperada para varios meses y con base en éstas se obtienen las 
distribuciones de frecuencia que se muestran en la figura 8.1. 


Frecuencia relativa 
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.. La intuición sugiere que el comerciante C es el que hace mejor su trabajo.no sólo 
porque la distribución de la diferencia entre las demandas. real y esperada se con- 
centra alrededor del valor perfecto de cero sino también porque la variabilidad de la 
diferencia es, en forma relativa, pequeña. Para el comerciante A; aun a pesar de que 
la distribución también se encuentra centrada alrededor del origen, existe una mayor 
variabilidad en las diferencias. La distribución para el comerciante B se concentra 
alrededor de un valor negativo, lo cual sugiere que B sobreestima la mayor parte del 
tiempo la demanda mensual. 

Si se acepta la premisa de que el objetivo de la estimación de parámetros no es 
igual al de los estimadores o predictores humanos, entonces, de los ejemplos ante- 
riores, surgen dos propiedades deseables: el estimador de un parámetro 0 debe tener 
una distribución de muestreo concentrada alrededor de 0 y la varianza del estima- 


dor debe ser la menor posible. 
Para ampliar las propiedades anteriores, considérese lo siguiente. Sea X,, X2, ..., Xn 


una muestra aleatoria de tamaño n proveniente de una distribu.iór. con función 
de densidad f(x; 0), y sea T = u(X,, X,, .. , X,) cualquier estadística. El proble- 
ma es encontrar una función u que sea la que proporcione la **mejor”” estimación de 
6. Al buscar el mejor estimador de 0 se hará uso de una cantidad muy importante 
que recibe el nombre de error cuadrático medio de un estimador. 


Definición 8.1 Sea T cualquier estimador de un parámetro desconocido 6. Se defi- 
ne el error cuadrático medio de T como el valor esperado del cuadrado de la dife- 
rencia entre T y 0. 


Para cualquier estadística T, se denotará el error cuadrático medio por ECM(7); 

de esta forma 
ECM(T) = E(T - 0). (8.1) 
Puede verse la razón del por qué el error cuadrático medio es una cantidad im- 


portante para enjuiciar a los posibles estimadores de 0 mediante el desarrollo de 
(8.1); este es, 
ECM(T) = E(T? — 20T + 6”) 
E(T?) — 28E(T) + 0? 
Van(T) + [EMP — 28 XT) + 0” 


VanT) + [0 — E(DY. (8.2) 


Il 


El error cuadrático medio de cualquier estimador es la suma de dos cantidades no 
negativas: una es la varianza del estimador y la otra es el cuadrado del sesgo del esti- 
mador. El lector encontrará que estas dos cantidades se encuentran relacionadas en 
forma directa con las propiedades deseables de un estimador. De manera específica, la 
varianza de un estimador debe ser lo más pequeña posible mientras que la distribu- 
ción de muestreo debe concentrarse alrededor del valor del parámetro. Por lo tanto, 
el problema visto de manera superficial parece bastante sencillo; esto es, seleccionar, 
como el mejor estimador de 0, la estadística que tenga el error cuadrático medio 
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más pequeño posible de entre todos los estimadores factibles de 9. Sin embargo, en 
realidad el problema es mucho más complicado. Aun si fuese práctico determinar 
los errores cuadráticos medios de un número grande de estimadores, para la mayor 
parte de las densidades f(x; 6) no existe ningún estimadorque minimice el error 
cuadrático medio para todos los posibles valores de 0. Es decir, un estimador puede 
tener un error cuadrático medio mínimo para algunos valores de 0, mientras aue 
otro estimador tendrá la misma propiedad, pero para otros’ valores ES 2. 


Ejemplo 8.1 Sea Xi, Xis ... r An una muestra aleatoria de Aigina distribución tal 
que E(X) = u rare ) = ø, i = 1,2, ..., n. Considere las estadísticas 


Tx 


= Y) X./(n + 1) 


i=l 


como posibles estimadores de p. Obtener los errores cuadráticos medios de T, y TY 
demostrar que ECM(T,) < ECM(T,) para algunos valores de p mientras que la pro- 
posición inversa es cierta para otros valores de p. 


El sesgo de T, es cero, dado que E(T,) = ED) = u; de esta forma se tiene 
ECM(T,) = Var(T,) = a”/n. 
Para T,, 


E(T,) = (n + vre(3 x) 


= (n + DS, EX) 


i=} 


i = nu/(n + 1). 
De manera similar, 


Van T,) = Var on + 1 Ex 
j=l 


= (n +1)? > Var(X,) 


i=} 
= no? /(n + 1). 
De esta forma se tiene 


nar o np a 
PMU ea P (n + z] 


ona 
(n + 10 
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Si n =,10 y o? = 100; entonces ~ A 


AA sal ECM(T7,) = “(1000 + u 2)/121. 
Ninaa dos expresiones anteriores y. resolver para p, se tiene que para 4 < 
2 


10, ECM(T,) < ECM(T, ); pero si y >\ V210, entonces ECM(T,) < ECM(T.). 


Es por esta razón que se deben examinar criterios adicionales para la selección de 
los estimadores de 0, aun a pesar de que el error cuadrático medio sea el concepto 
más importante. De manera específica se estudiarán los estimadores insesgados, 
consistentes, insesgado de varianza mínima y eficientes. Entonces, con base en lo an- 
terior, se presentará un concepto importante en la estimación puntual que se conoce 
como estadísticas suficientes. A lo largo de toda la discusión se supodrá la existencia 
de un solo parámetro desconocido. Sin embargo, debe notarse que bajo condiciones 
más generales estos conceptos pueden extenderse para incluir un número mayor de 
parámetros desconocidos. 


8.2.1 Estimadores insesgados 


En el error cuadrático medio de un estimador 7, el término [9 — E(T)] recibe el 
nombre de sesgo del estimador. El sesgo de T puede ser positivo, negativo o cero. 
Puesto que el cuadrado del sesgo es un componente del error cuadrático medio, es ra- 
zonable insistir que éste sea, en valor absoluto, lo más pequeño posible. En otras pa- 
labras, es deseable que un estimador tenga una media igual a la del parámetro que se 
está estimando. Lo anterior da origen a la siguiente definición. 


Definición 8.2 Se dice que la estadística T = (X,, X»,..., X, ) es un estimador in- 
sesgado del parámetro 0, si E(T) = 6 para todos los posibles valores de 0. De esta 
forma, para cualquier estimador insesgado de 60, la distribución de muestreo de T se 
encuentra centrada alrededor de 6 y ECM(T) = Var(T). 


En la sección 7.4 se demostró que, sin importar la distribución de la población de 
interés, E(X) = p. Por lo tanto, la media muestral es un estimador insesgado de la 


media de la población u para todos los valores de u. De hecho, si X,. X}. .... X, es 
una muestra aleatoria de la distribución de X con media u.entonces cualquier X, de la 
muestra un estimador insesgado de y, dado que £(X,) = p paratoda i = 1,2,.... A. 


Además, si una estadística T es cualquier combinación lineal de las variables aleato- 
rias de la muestra de manera tal que 


T = aX, + aX, Tere a, A, 
en donde 2;., a; = 1, entonces T es un estimador insesgado de u dado que 


ET) = Ela¡X, + (MX, + +a,X,) 
i = (Gp + thp + + ad,p 


= k. 
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En la sección 7.5 se demostró que si la varianza muestral $° está dada por (7.14), 
entonces, cuando se muestrea una distribución normal, E(S?) = o”. A continua- 
ción se demostrará que si 5? está definida por (7.14), entonces éste es un estimador 
insesgado de o° sin importar cuál sea la distribución de la población devinterés. Sea 
Xi» X2,...., X, Una muestra aleatoria de alguna distribución con una función de 
densidad: no especificada. De esta manera, E(X;) = u y Var(X;) = o? para toda 
i=1,2,...,n. l 


Entonces l 
E(S”) = E È (X, - XY/(n — J 
= (n - 1) e(5 (X, — pu) — (Y — wP) 
=(n- 1) eS [(X, — uy - nË — way 
= (a = D| 5 Bæ, =w? | 


pero por definición E(X; — u}? = Var(X,) = 0? y E(X — u}? = Var(X) = 0*/n. 
Por lo tanto 


E(S?) = (n ~ 1)* [no? — (no?)/n] 
a(n- 1) 
— n=l 
= o°. 


En otras palabras, $? es un estimador insesgado de o° sólo cuando el divisor es 
igual a n — 1. Esta es la razón del por qué al determinar la varianza muestral se divide 
por n — 1 en lugar de dividir por n. El lector debe saber que este resultado no hará de 
S un estimador insesgado de œ (véase la sección 11.2.2).* 


8.2.2 Estimadores consistentes 


Es razonable esperar que un buen estimador de un parámetro 0 sea cada vez mejor 
conforme crece el tamaño de la muestra. Esto es, conforme la información en una 
muestra aleatoria se vuelve más completa, la distribución de muestreo de un buen es- 
timador se encuentra cada vez más concentrada alrededor del parámetro 0. Se 
tendrá un mejor estimador de 0 si se basa en 30 observaciones que si lo hace con 
sólo cinco. Esta idea origina lo que se conoce como un estimador consistente. 


Definición 8.3 Sea Tel estimador de un parámetro 6, y sea T,, Tz. ..., T, una se- 
cuencia de estimadores que representan a T con base en muestras de tamaño 1, 2 ... 


* Véase el material que lleva a la expresión (7.15) 


al 
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n, pavada os dice que Tes un estimador consistente nd para 0 si 
im P(T, -4s Zi EAT 


para todos los lc de o ye>0, o : 

El requisito de que m,- P(T, — 0| <£) =- para toda 6 constituye lo que se 
denomina convergencia en probabilidad. Es decir, si un estimador es consistente, 
converge en probabilidad al valor del parámetro que está intentando estimar confor- 
me el tamaño de la muestra crece. Esto implica que la. varianza de un estimador consis- 
tente T, disminuye conforme n crece, y la media de T, tiende hacia donde n crece. 
De esta forma, las condiciones que T debe cumplir para ser un estimador insesgado 
de 0 y para que Var(T,)—0 conforme n—>x= son suficientes (pero no necesarias) 
para que exista consistencia. Por ejemplo, la media muestral X y la varianza 
muestral S? son estimadores consistentes de y y o”, respectivamente. Para de- 
mostrar que X es un estinadc. consistente de 4, primero se enunciará un impor 
tante teorema conocido como desigualdad de Tchebysheff. 


Teorema 8.1 Sea X una variable aleatoria con una función (densidad) de probabili- 
dad f(x) de manera tal que tanto E(X) = u como Var(X) = o? tienen un valor fi- 
nito. Entonces 


P(X — u| < ko) > 1 - p 


l 
P(X — u| > ko) S 


para cualquier constante k > 1. (Para la demostración de este teorema véase [3].) 


La desigualdad de Tchebysheff es muy importante, ya que permite determinar 
los límites de las probabilidades de variables aleatorias discretas o continuas sin te- 
ner que especificar sus funciones (densidades) de probabilidad. Este teorema de 
Tchebysheff asegura que la probabilidad de que una variable aleatoria se aleje no 
más de k desviaciones estándar de la media, es menor o igual a 1/k? para algún valor 
de k > 1. Por ejemplo 


PX a= 20> 1- i 


P(X — u| = 30) > 1 -; 


para cualquier variable aleatoria X con media u y varianza o? finitas. 


* También puede definirse un estimador de error cuadrático consistente en forma tal que 
j lim E(T, — 6 = 0, para toda 9, 


n—x 


pero la idea de consistencia sencilla es una propiedad más básica. 
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Para demostrar que la media muestral X,, como función de una muestra alea- 
toria de tamaño n, es un estimador consistente de H, se utilizará el resultado propor- ` 
cigiiado por el teorema 8.1. RENEE TEAT EA E ' 
Teorema 8.2 Sean X., X2, ..., X, n variables aleatorias IID, tales que E(X;) = u 
y Var(X;) = o tienen un valor finito para i = 1, 2, ..., n. Entonces X, = 
E, X;/n es un estimador consistente de u. - 


Demostración: Se quiere demostrar que . 


lim PX, — pl <= €) = 1. 
Dado que X,, es una variable aleatoria tal que E(X,) = u y Var(X,) = 0*/n,se 
deduce del teorema de Tchebysheff que 


P(X, — ul> ko/Vm < 1/k?. 


Sea k una constante positiva igual a ey. n/ a, en donde e es un número real positivo. 
Entonces 
Y o? 
POX, - ul > 8) s —. 
(| n f mi ) ne? 
Dado que a” tiene un valor finito, tomando el límite de esta expresión conforme n 
tiende al infinito se tiene 
úm P(X, — ul > e) =0. 


n—x 


Por lo tanto, se concluye que 


lím P(X, - p[<e = 1, 
iak 
y X, es un estimador consistente de u. 

El teorema 8.2 también se conoce como la ley de los grandes números. Ésta pro- 
porciona el fundamento teórico para estimar la media de la distribución de la pobla- 
ción con base en el promedio de un número finito de observaciones de manera tal 
que la confiabilidad de este promedio es mejor que la de cualquiera de las observa- 
ciones. Lo anterior permite determinar el tamaño necesario de la muestra para ase- 
gurar con determinada probabilidad que la media muestral no se alejará más allá de 
una cantidad específica de la media de la población. 


Ejemplo 8.2 Considere el proceso de selección de una muestra aleatoria de alguna 
distribución que tiene una varianza conocida de o? = 10 pero con una media u 
desconocida. ¿Cuál debe ser el tamaño de la muestra para que la media X, se en- 
cuentre dentro de un intervalo igual a dos unidades, de la media poblacional con una 
probabilidad de, por lo menos, 0.9? 

Primero se desarrollará una expresión general para n. Del teorema 8.1, se sabe 
que 
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¡NA ta E 1 AN - ESE 
P(X, = al <= ko/Vn) > l TKE ikain Am a ri Oe 


- Elíjase un número positivo œ de manera tal "que: wsi kei 0 Eo vas èn doit- 
de necesariamente 0 < a <:1. Entonces; oa cor pooni o poA enaga sn yy 


P(X, - „| < ENTE TEN 


Sea e > 0 la magnitud del máximo error permisible entre X,, y q con base e en una 
muestra de tamaño n. Entonces 


e = 0/Vna. (8.5) 


Resolviendo para n, se tiene 
2 
n=% (8.6) 
QE 


Es claro que a = 0.1 y e = 2 para determinar los valores de n. Sustituyendo 
en (8.6), se tiene 


3 
II 


10/(0.1)(4) 
25; 


i 


de esta manera, si se selecciona una muestra que contenga por lo menos 25 observa- 
ciones de la distribución, el valor de la media se encontrará dentro de un intervalo 
con longitud de dos unidades con respecto a la media poblacional que tenga una pro- 
babilidad no menor que 0.9. El valor de probabilidad 0.9 asociado con esta afirma- 
ción en una medida de la confiabilidad con que se puede formular una inferencia 
respecto a u y con base en X. 


8.2.3 Estimadores insesgados de varianza mínima 


Para un parámetro que posee un error cuadrático medio mínimo es difícil determi- 
nar un estimador para todos los posibles valores del parámetro. Sin embargo, es po- 
sible analizar cierta clase de estimadores y dentro de esta clase intentar determinar 
uno que tenga un error cuadrático medio mínimo. Por ejemplo, considérese la clase 
de estimadores insesgados para el parámetro 0. Si una estadística T se encuentra 
dentro de esta clase, entonces E(T) = 0 y ECM (T) = Var(T). Puesto que es desea- 
ble que la varianza de un estimador sea lo más pequeña posible, debe buscarse uno 
en la clase de estimadores insesgados, si es que éste existe, que tenga una varianza 
mínima para todos los valores posibles de 6. Este estimador recibe el nombre de esti- 
mador insesgado de varianza mínima uniforme (VMU) de 6. La definición formal 
de un estimador VMU es la siguiente. 


Definición 8.4 Sea X,. X,, ..., Y, una muestra aleatoria de una distribucion cuya 
función (densidad) de probabilidad es f(x; 0). Sea la estadística T = MX, . Xz -> 
Xa) un estimador de 8 tal que E(T) = 0 y Var(T) es menor que la varianza de 


A o a 
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cualquier otro estimador insesgado de € para todos los posibles valores de 0. Se dice 
entonces que T es un estimador insesgado de varianza mínima de 0. 


La varianza de un estimador insesgado es la cantidad más importante para decidir 
qué tan bueno es el estimador para estimar un parámetro 0. Por ejemplo, sean T, y 
T, cualesquiera dos estimadores insesgados de 0. Se dice que Tes un estimador más 
eficiente de 9 que T,si Var(T,) <= Var(T,), cumpliéndose la desigualdad en el sen- 
tido estricto para algún valor de 0. Es muy común utilizar el cociente Var(T,)/Var 
(T,) para determinar la eficiencia relativa de T, con respecto a T, Si los estimadores 
son sesgados, se emplean sus errores cuadráticos medios para determinar las eficien- 
cias relativas. 

¿Cómo obtener un estimador VMU, si es que éste existe? En muchos casos resul- 
ta prohibitivo determinar las varianzas de todos los estimadores insesgados de 0 y 
entonces se selecciona el estimador que tenga la varianza más pequeña. La búsqueda 
de un estimador VMU se facilita bastante con la ayuda de un resultado que recibe el 
nombre de cota inferior de Cramér-Rao, el cual se presenta en el sizuiente teorema. 
Para una demostreción de éste y otros detalles que incluyen algunas condiciones de 
regularidad, se invita al lector a que consulte (2]. 


Teorema. 8.3 Sea X,, X,, ..., X, una muestra aleatoria de una distribución con 
una función (densidad) de probabilidad f(x; 0). Si T es un estimador insesgado de 
9, entorices la varianza de T debe satisfacer la siguiente desigualdad 


Van T) > A E (8.7) 


p z| ES 2)] 
00 


El teorema 8.3 establece un límite inferior para la varianza de un estimador de 6. 
Sin embargo, lo anterior no necesariamente implica que la varianza de un estimador 
VMU de 90 tenga que ser igual al límite inferior de Cramér-Rao. En otras palabras, 
es posible encontrar un estimador insesgado de 0 que tenga la varianza más pequeña 
posible de entre todos los estimadores insesgados de 0, pero cuyas varianzas son más 
grandes que el límite inferior de Cramér-Rao. Un estimador de esta clase sigue sien- 
do un estimador VMU de 6. Para un estimador insesgado cuya varianza se apega a 
la cota inferior de Cramér-Rao, se tiene la siguiente definición. 


Definición 8.5 Si T es cualquier estimador insesgado del parámetro 6 tal que 
l 


i El (m 2)" 
30 


entonces se dice que T es un estimador eficiente de 8. 


Var(T) = 


De esta forma, el estimador eficiente de 9 es el estimador VMU cuya varianza es 
igual al límite inferior de Cramér-Rao. El estimador eficiente de 0, si es que se puede 
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encontrar, es el mejor estimador (mecágado) de 6 enel contexto de la ae es- 
tadística clásica, 


Ejemplo 8.3 Sea. X v X2,..., A, una muestra aleatoria de una distribución de 
Poisson cuya función de probabilidas es p(x; A) = e7*x"/x!. Obtener el estimador 
eficiente de A. > 


ES 
i 
A 


Dado que p(x; A) = A" exp(—A)/x!, 
l In p(x; A) = xin(à) — A — In(x)) 

dln p; A) x 

SUN A 

= (x — A/A. 


al 


Entonces 


: , 2 


3 


l 2 
¿EX -A 


Var(X) 
= E A 


pero si X es una variable aleatoria de Poisson, Var(X) = A. Lo anterior da como re- 


sultado 
p| (1 p(X; y al 
oÀ À 


y, por la definición 8.5, la varianza del estimador eficiente de A es 


Van(T) = a A/n = 0/n, 
n/kx 
en donde o” = A es la varianza de la población. Por lo tanto, el estimador eficiente 
del parámetro A de Poisson es la media muestral X. 

Se concluirá esta sección sobre las propiedades deseables de los estimadores 
regresando al importante concepto de estadísticas suficientes. Este concepto es im- 
portante puesto que si existe un estimador eficiente, se encontrará que también es 
una estadistica suficiente. 


2 


8.2.4 Estadísticas suficientes 


De manera intuitiva, una estadística suficiente para un parámetro 8 es aquélla que 
utiliza toda la información contenida en la muestra aleatoria con respecto a 6 . Por 
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ejemplo, supóngase que: X,, Xz, ..., Xso es una muestra aleatoria de 50 observa- 


ciones de una distribución gama con una función de densidad 


e A $(32,0) = ¿1 exp(-x/0) ads Ae ES 
en donde el parámetro de escala 9, 9 > 0, es desconocido. Con una estadística sufi- 
ciente para 0, lo que se tiene es una manera de resumir todas las mediciones de los 
datos de la muestra en un valor en el que toda la información de la muestra con res- 
pecto a O se encuentre contenida en este valor. Para este ejemplo, el estimador 


T = (X, + X, + “+ X49)/25 


¿contiene toda la información pertinente con respecto a 0? A pesar de que el estima- 
dor T proporciona un solo valor, no es posible que éste contenga toda la informa- 
ción muestral con respecto a 0, dado que se ha excluido la mitad de las observa- 
ciones. ¿Qué puede decirse acerca de la media muestral? Con toda seguridad ésta 
incluye todas las observaciones de la muestra aleatoria. ¿Significa esto que toda la 
información muestral con respecto a 0 se extrae considerando a X? Se dice que una 


estadística T = u(X,, X2, ..., Xn) es suficiente para un parámetro 6 si la distribu- 
ción conjunta de X,, X,, ..., X,, dado T, se encuentra libre de 9; es decir, si se 
afirma T, entonces X,, X2, ..., X, no tiene nada más qué decir con respecto a 0. 


: La utilidad de una estadística suficiente recae en el hecho de qué si un estimador 
insesgado de un parámetro 0 es una función de una estadística suficiente, entonces 
tendrá la varianza más pequeña de entre todos los estimadores insesgados de 0 que 
no se encuentren basados en una estadística suficiente. De hecho, si existe el estima- 
dor eficiente de 0, se encontrará que éste es una estadística suficiente. Un criterio 
para determinar una estadística suficiente está dado por el siguiente teorema, el cual 
se conoce como teorema de factorización de Neyman. 


Teorema 8.4 Sea X,, X,, ..., X, una muestra aleatoria de una distribución con una 
función de densidad de probabilidad f(x; 0). Se dice que la estadística T = u(X,, 
X; ..., A, ) es una estadística suficiente para 0 si y sólo si la función de verosimilitud 
puede factorizarse de la siguiente forma: 


LX as 10) = M0) e(X .X>, ...,X,) 


para cualquier valor 1 = U(X, X2, ..., X„) de T y en donde g(x,, X2, ..., X,) no cOn- 
tiene al parámetro 0. 


Ejemplo 8.4 Sea X,. X,,..., X, una muestra aleatoria de una distribución gama 
cuya función de densidad de probabilidad es 


fi: 0) = xl exp(=x/0)  x>0, 


F0Jo” 


y en donde el valor del parámetro de forma a es conocido. Obtener una estadística 
suficiente para el parámetro de escala 6, 


rabo 
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La función de verosimilitud es -> =- m E de OLAN e 
L(x, X2, o Ano 0) T fx ES 0) fx; 0) fns 0) 


77 exp(—x>/0) 


O l 
expl x1/0) Tar 


1 7 
x “Tae” 


e A a-l ax (— /0) 
T(aJ9* Xn p . Xn i 


1 n ES n ) 
= y a L| x7 exp| — 2, x;:/0 
rær Ll į 2 


i=l 


N 


l Mp7 
7 gr ex( z > 5/9) ° T"(a) 


= (Es: o) LX. Ma, .... Xp). 


Por el teorema 8.4, >;_, X, es una estadística suficiente para 9. 
Supóngase, en el ejemplo 8.4, que se considera un estimador de 9 de la forma 


FE (8.8) 


puede verse que T es una función de la estadística suficiente *X. 
Por lo tanto, T también es una estadística suficiente para 0 dado que la función de 
verosimilitud para el ejemplo 8.4, puede factorizarse como 


L(X 1, X2, ..., Xp) = A(t, 0) 2X1, X2, -.., Xp). 
en donde ÈX, = naT y 
} 1 
h(t; 0) = gr exp(— nat/0). (8.9) 
Como resultado se tiene que se satisfacen las condiciones del teorema de factoriza- 


ción. De hecho, puede demostrarse que cualquier función uno a uno de una estadis- 
tica suficiente, también es suficiente. 


Ejemplo 8.5 Sea X,.X,,.... X, una muestra aleatoria de una distribución de 
Poisson cuya función de probabilidad es 
pA) = à` exp(—A)/x! SAN E2 aa 
Demostrar que el estimador eficiente de À es a su vez una estadistica suficiente. 
Del ejemplo 8.3, recuérdese que el estimador eficiente de A es la media muestral 


X. Se necesita demostrar que'/a es una función uno a uno de una estadistica suficien- 
te para A. La función de verosimilitud es 


a i 
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LX) X2, -0.3 Xp3 A) = pls; A) Pas N) + p(x,; A) 


_ A”exp(—A). AZexp(—A) A TEXp(—») 
a xp! xa! Xa! 


=p “exp( -nA)/ [I x! 


hlÈxi A) 2(%1,X2, -.., Xn) 
en donde 
HEx; 5 = A exp(— nA). 


Por el teorema 8.4, la estadística >;_ , X; es suficiente para A. Dado que el estimador 


X es una función uno a uno de esta estadística, X también es suficiente para A. 


8.3 Metodos de estimación puntual 


En la sección anterior se mencionaron las propiedades deseables de un buen estima- 
dor. En esta sección se estudiará cómo obtener estimadores que, de manera general, 
tengan buenas propiedades. Específicamente se considerarán los métodos de máxi- 
ma verosimilitud y el de momentos. En el capítulo 13 se encontrará el método de 
mínimos cuadrados que se emplea para ajustar ecuaciones. 


8.3.1 Estimación por máxima verosimilitud 


Para introducir el concepto de estimación de máxima verosimilitud, piense en el si- 
guiente hecho. El desborde de ríos y lagos es un fenómeno natural que a veces tiene 
devastadoras consecuencias. Supóngase que en cierto año hubo dos serias inunda- 
ciones, por este fenómeno, en determinada región geográfica. Si se supone que el 
número de inundaciones por año en esta localidad es una variable aleatoria de Pois- 
son con un valor del parámetro A, desconocido, ¿cómo debe procederse para estimar 
el valor de A con base en una sola observación x = 2? Un posible método es sélec- 
cionar el valor de A para el cual la probabilidad del valor observado es máxima. Es 
posible, para el valor observado, que \ sea cualquier número positivo. Para propósi- 
tos de la presentación, supóngase que los posibles valores de A son 1, 3/2, 2, 5/2 y 3. 
Las probabilidades para el valor observado x = 2 para cada uno de estos valores de 
A son las siguientes: 


Á 1 3/2 2 5/2 3 
pl; A) 0.1839 0.2510 0.2707 0.2565 0.2240 


Aparentemente p(2; A) crece hasta un valor máximo de 0.2707 para A = 2, y 
disminuye para A > 2. El valor de 2 de h es el que maximiza la probabilidad del va- 
lor observado. En otras palabras, la observación x = 2 tiene una probabilidad ma- 
yor de ocurrencia para una distribución de Poisson con A = 2 que para cualquier 
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otro valor del parámetro A. Puede demostrarse que el valor A = 1 es el que maximi- 
zaa A = 2 tomando la primera derivada de p(2; A) con respecto a A eigualándola 
a cero. Dado que l e mini 


p(2; A) = X? exp(—A)/2!, 


se tiene o 
| PZN _ 1, b 
a 71 A“ exp(—A) + 24 exp(—A)] 
el A exp(—A) 


> (2-A). 

Igualando la primera derivada a cero se tienen las raíces A = 0 o A = 2. La segunda 
derivada con respecto a A da- como resultado la expresión exp(— Ņ[I — 2A + 
(A?)/2], cuyo valor para A = 2 es —exp(—2) < 0. De esta forma, el valor x = 2es 
aquél para el cual el valor de la probabilidad de la observación es máximo. Este va- 
lor recibe el nombre de estimador de máxima verosimilitud. 

En esencia, el método de estimación por máxima verosimilitud, selecciona como 
estimador a aquél valor del parámetro que tiene la propiedad de maximizar el valor 
de la probabilidad de la muestra aleatoria observada, En otras palabras, el método de 
máxima verosimilitud consiste en encontrar el valor del parámetro que maximiza 
la función de verosimilitud. 


Definición 8.6 Sea X,, X,, ..., X, una muestra aleatoria de una distribución con 
función (densidad) de probabilidad f(x; 0), y sea L(x, x», ..., Xa; 0) la verosimili- 
tud de la muestra como función de 9. Sit = u(x,, X2, ..., x,) es el valor de O para 
el cual el valor de la función de verosimilitud es máxima, entonces T = u(X,, X2, ..., Xn) 
es el estimador de máxima verosimilitud de 6, y t es el estimador de máxima verosi- 
militud. 


El método de máxima verosimilitud (MV) tiene la propiedad (deseable) de pro- 
porcionar estimadores que son funciones de estadísticas suficientes, siempre y cuando 
el estimador MV sea único. Además, el método MV proporciona el estimador eficien- 
te, si es que existe. Sin embargo, los estimadores MV son generalmente sesgados. El 
procedimiento para obtener este tipo de estimadores es (relativamente) directo. Debi- 
do a la naturaleza de la función de verosimilitud se escoge, por lo común, maxi- 
mizar el logaritmo natural de L(9). Esto es, en muchas ocasiones es más fácil obtener 
el estimado MV maximizando InL(9) que L(0). En los siguientes ejemplos se ilus- 
tra el método. 


Ejemplo 8.6 En un experimento binomial se observan X = x éxitos en n ensayos. 
Obtener el estimador de máxima verosimilitud del parámetro binomial p. 


En este caso la función de verosimilitud es idéntica a la probabilidad de que X = 
x; de esta forma 


L(x; p) = pa-=pJIs, 0O<p<l. 


(n — x)x! 
t 


i 
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Entonces `‘ 
InL(x; p) = In(n}) — In[(n — x)!] - In(x!) + x In(p) + (a = ind - p). 


Para encontrar el valor de p, para el cual In£ (x: p)tiene un valor máximo, se toma 
la primera derivada con respecto a p y se iguala a cero: 


diin; p] _x_(n=x)_ 0 
dp p @-p ` 
Después de resolver para p, se obtiene el estimador MV de p el cual recibe el nombre 
de proporción muestral X/n, y el estimado MV es x/n. Para confirmar que este valor 
maximiza a InL(x; p), se toma la segunda derivada con respecto a p y se evalúa en 
x/n: 


dinle; p _ _ np — p) + (e np - 2p) 
dp’ [p0 - py 
y 
de [InL(x; pN] _ x a 


dp? n/m PL — (x/m)] 


lo que confirma el resultado, dado que la segunda derivada es negativa. Para un 
ejemplo específico, si se observan x = 5 con base en 25 ensayos independientes, el esti- 
mado MV de p es 5/25 = 0.2. 


Ejemplo 8.7 Sea X,, X,, ..., X, una muestra aleatoria de una distribución normal 
con una función de densidad de probabilidad 


Fx; u,0*) = expl- (x — 1) /207]. 


l 
Vro 
Determinar los estimadores de u y o”. 


Para este problema se procederá de la misma forma que en el caso de un sole pa- 
rámetro. Dado que la función de verosimilitud depende tanto de u como de a”, los 
estimados MV de u y a? son los valores para los cuales la función de verosimilitud 
tiene un valor máximo. De acuerdo con lo anterior 


> l > 2 l 
L(X1, X2, -0-5 Xni M, 0) = ——- expl - (x, — 1)/207] = == 


Vro Vro 


x expl- (x, — uy/20°] 


l n 
= (270?) "2 - Y (pl, 
Qro”) el So (x; w|, 


i=} 


A x l n E 
IML, x2, a x,53 0, 0) = —Fln(2m) — Enl) - Y Y, (a, — Y. 
2 2 207 21 


ES 
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Después de obtener las primeras derivadas parciales con respecto a y con respecto 
a or e igualándolas a cero, se tiene 


l l  allnL(a, o 
x i ETRE e Se (x, — 
yo ] 
a[InL(u,0?)] at i 
d I IF L5 (MY = 


Resolviendo la primera ecuación para p, sustituyendo este valor en la segunda y re- 
solviendo para o”, se tiene 


R= Yan ¿ 


T D a; — X) /n. 
i=1 


A pesar de que no se verificará que estos valores maximizan la función de verosi- 
militud, ellos son los estimados MV de u y o°, respectivamente. Si existe alguna duda 
tómense las segundas derivadas. Sin embargo, dado que una función de verosimi- 
litud es el producto, ya sea de probabilidades o de densidades, éstas generalmente se 
encuentran acotadas y son continuas en los parámetros. En consecuencia, el resulta- 
do usual es que la solución de la primera derivada proporcionará el valor para el cual 
la función es máxima. 

Nótese que se ha introducido la acostumbrada notación **sombrero”” * para de- 
notar un estimador MV. Se empleará esta notación cuando sea necesario. Nótese 
también que el estimador MV de o? es sesgado, confirmándose de esta manera un 
comentario anterior en el.sentido en el que los estimadores MV no necesariamente 
son insesgados. 

El método de máxima verosimilitud posee otra propiedad deseable conocida 
como propiedad de invarianza. Sea Ô = u(X,, X,, ..., X, ) el estimador de máxima 
verosimilitud de 0. Si £(0) es una función univaluada de 6, entonces el estimador de 
máxima verosimilitud de g(0) es g(6). Por ejemplo, dado que, cuando se muestrea 
una distribución normal, el estimador MV de o” es 


por la propiedad de invarianza, el estimador MV de la desviación estándar o es 


1 n 1/2 
ĉ = È (x, — e] 
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Como ejemplo adicional de la propiedad de invarianza, el estimador MV de la fun- 
ción de confiabilidad Weibull es 
RG) = = expl- tu 97, 


en donde 6 es el amador MV del parámetro de escala 9. 


8.3.2 Método de los momentos 


Quizá el método más antiguo para la estimación de parámetros es el método de los 
momentos. Éste consiste en igualar los momentos apropiados de la distribución de la 
población con los correspondientes momentos muestrales para estimar un pará- 
metro desconocido de la distribución. 


Definición 8.7 Sea X., X,,..., X, una muestra aleatoria de una distribución con 
*un-ión (densidad) de probabilidad f(x; 6). El r-ésimo momento alrededor del cero 
se define como 


24 


SE 


El método de los momentos proporciona una alternativa razonable cuando no se 
pueden: determinar los estimadores de máxima verosimilitud. Recuérdese que los pa- 
rámetros son, en general, funciones de los momentos teóricos. Por ejemplo, si la va- 
riable aleatoria X tiene una distribución gama (véase la sección 5.5), entonces 


p=00 (8.10) 


ala + DO. (8.11) 


u? 


Resolviendo (8.10) para a y sustituyendo en (8.11), se tiene 


a = u/0 (8.12) 
y 
pi = 3 (5 + 1) P 
= w + 0 
o 
0 = (u — p/p. (8.13) 
Sustituyendo (8.13) para 6 en (8.12), se obtiene 
= p/(u = p°). (8.14) 


De esta forma, los dos parámetros de la distribución gama son funciones de los pri- 
meros dos momentos alrededor del cero. 
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En esencia, el método se implementa igualando tantos momentos muestrales con 
los correspondientes momentos teóricos tantas veces como sea necesario para deter- 
minar un estimador de momentos para un parámetro desconocido. Por ejemplo; por 
(9: 13) y (8. e lox; estimadores de momento de los parametros pan a ya šo sy 


ear e se -F/X he a 6.15 


y, 


a = X’/(M; - X’), 8.16) 
respectivamente, en donde se emplea la notación de tilde (7) para denotar un esti- 
mador de momentos. Como ilustración adicional, recuérdese el ejemplo 4.10. Se de- 
mostrará que los parámetros p y k de una distribución binomial negativa también 
son funciones de los primeros dos momentos alrededor del cero, ya que 


p = uim- pi) 


l} 


k = wfm - p - w. 


Por lo tanto, los estimadores de momentos de p y k están dados por 


p = X/(M; - X’) 010 


k = X*"(M; - X? - X), (8.18) 


respectivamente. 


8.3.3 Estimación por máxima verosimilitud para muestras censuradas 


En algunas situaciones de muestreo, en forma especial en las pruebas de duración, el 
procedimiento de prueba puede terminar antes de proporcionar una muestra aleato- 
ria completa. En esta sección se considerará el principio de máxima verosimilitud 
para la estimación de parámetros desconocidos con base en este tipo de muestras, las 
cuales reciben el nombre de muestras censuradas o truncadas. En este contexto, 
las ideas se concentrarán, en forma exclusiva, alrededor de la noción de una prueba 
de duración. 

Una prueba tipica de duración consiste en artículos iguales (tales como compo- 
nentes eléctricos o mecánicos) seleccionados en forma aleatoria de un proceso y Ope- 
rados en un medio cuidadosamente controlado hasta que el artículo falla. En este 
caso, la medición de interés es el lapso de tiempo que cada unidad tarda en fallar. Si 
la prueba de duración se termina sólo cuando todas las unidades de la muestra han 
fallado, se dice que la muestra aleatoria de tiempos está completa. Sin embargo, por 
restricciones económicas y de tiempo, generalmente la prueba termina ya sea des- 
pués de un lapso de tiempo predeterminado Xo O después de que falla un determina- 
do número de unidades m = n. Las dos condiciones producen muestras censura- 
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das. Si X, es un lapso fijo de tiempo, el número de unidades que fallan de las n, des- 
de el comienzo de la prueba hasta el tiempo x, es una variable aleatoria; ésta consti- ` 
tuye una muestra censurada de tipo 1. Sim ẹs fijo y el-tiẹmpo de terminación X, es la 
variable aleatoria, se dice que la muestra;es de tipo II. Sin considerar la inferencia, 
existe muy poca diferencia entre estos dos tipos de muestras. De acuerdo con lo ante- 
rior, se restringirá la presentación al muestreo. censurado de tipo II. 
Los datos muestrales de una prueba de duración son los tiempos en los que se dio 
una falla. Por ejemplo, supóngase que la primera falla ocurrió en un tiempo igual a 
x, desde el comienzo, la segunda se presenta a x, desde el comienzo y así hasta que 
ocurre la m-ésima falla en un tiempo por x,,, en donde m < n es el número, fijado 
de antemano, necesario para terminar la prueba. Los tiempos que se observaron de falla 
Xis Xy ++» X, Constituyen una secuencia ordenada, porque X) S xX, S +" S Xp. 
Nótese que en el momento en que se da por terminada la prueba, existen n — m uni- 
dades que todavía no han fallado; estas n ~ m unidades tienen un tiempo de supervi- 
vencia x„. Es claro que se tiene el tamaño completo de la musstr> cuando m = n. 
Supóngase que los tiempos de duración de las unidades son variables aleatorias 
Xis X2, ..., A, independientes O distribuidas, con una función de densidad 


f(x; 0) = Z expl- x/0), x>0, 09>0. 


El interés recae en encontrar el estimador de máxima verosimilitud del parámetro 9. La 
función de verosimilitud para un muestreo censurado del tipo II es la probabilidad con- 
junta de que fallen 1 unidades en los tiempos x,, x,,..., X„ €n ese orden, y sobrevivan 
n — m unidades con un tiempo de supervivencia igual a x,,. La parte de la función de ve- 
rosimilitud que corresponde a las m unidades que han fallado en los tiempos x,, x3, ..., 
Xm ES f(x1; Of x2; 0) = f(Xm; 0). Pero ésta es sólo una de las posibles formas en que 
pueden fallar m unidades de un total de n. El número total de formas es n!/(n — m)!. 
La probabilidad de que n — m unidades sobrevivan un tiempo x,,, está dada por la fun- 
ción de confiabilidad a tiempo x,,; de esta forma, para la distribución exponencial, 


P(X > Xm) = expl—x,,/0). 
Por lo tanto, la función de verosimilitud es 


LS n! l 1 
L(Xi, X2, -003 Xm, 0) = G mii g EPC- x/0) des 5 exp(—Am/0) 
AA 


m términos 


exp( —X/0) "> exp(— Xm/0) | 
A 
(n — m) términos 
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(8, 620 


Rag DUDORK 


Tomando € el logaritmo natural de L, se tiene 


D i Inen, i AAEE OPE E Ina — fin — m)! — mio. - ST 
Entonces | l 
d[InL(x,, x2, ..., Xm; 0) m 1 
—— A + ST 
de e e” 


e igualando la derivada a cero, el estimado de máxima verosimilitud de 0 es 


ĝ = È xi + (n — min | / m (8.21) 
i=l 


Ejemplo 8.8 Las calculadoras cientificas de bolsillo comúnmente disponibles con- 
tienen paquetes de batería que deben reemplazarse después de una cierta cantidad de 
tiempo de uso. Supóngase que de un proceso de producción se seleccionan, en forma 
aleatoria, 50 paquetes de baterías y se someten a una prueba de duración. Se decide 
terminar la prueba cuando 15 de los 50 dejan de funcionar de manera adecuada. Los 
tiempos observados, en orden, en los que ocurrió la falla, son 115, 119, 131, 138, 
142, 147, 148, 155, 158, 159, 163, 166, 167, 170 y 172. Si los anteriores valores son 
realizaciones de un conjunto de variables aleatorias independientes exponencialmen- 
te distribuidas, se debe obtener el estimado de máxima verosimilitud para 0. 


En este ejemplo, 
15 


=50,m=15,» x; = 115 + 119 + ++ + 172 = 2250, y xı = 172. 


i=} 
Por lo tanto, por (8.21), 


ds 2250 + (50 — 15)172 


IS = 551.33 horas. 


8.4. Estimación por intervalo 


Para introducir la noción de una estimación por intervalo, supóngase que una tienda 
mantiene muy buenos registros con respecto al número de unidades de cierto pro- 
ducto que vende mensualmente. Para la compañía es muy importante conocer la de- 
manda promedio ya que con base en ésta se lleva a cabo el mantenimiento del inven- 
tario. Supóngase que la demanda del producto no se ve afectada por fluctuaciones 
en la temporada. 

La compañía decide que los últimos 36 meses han sido típicos con respecto a la 
demanda de este producto, y con base en estos datos muestrales el valor calculado de 
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la media muestral es x = 200 unidades. En otras palabras, x = 200 es un estimado 
puntual de un parámetro desconocido, el cual representa la demanda promedio de 
este producto en la tienda. Este estimador, ¿implica que la demanda media descono- 
cida no sea mayor de 250 ni menor de 150? En este punto no es posible saberlo, ya 
que no se tiene ninguna indicación del posible error en el estimado puntual. El error 
en el estimado puntual se mide en términos de ds variación muestral del correspon- 
diente estimador. 

Por ejemplo, supóngase que la desviación estándar de la media muestral X es 60 
unidades. De acuerdo con el teorema central del límite, puede argumentarse que 
X —> N(u, 60), conforme n > œ. De esta forma, la probabilidad de que X se en- 
cuentre dentro de dos desviaciones estándar alrededor deu, es de, aproximadamen- 
te, 0.95. En otras palabras, para n grande, 


P(X — ul < 120) = 0.95, 


P(- 120 < X — u < 120) = 0.95. (8.22) 


Restando X y multiplicando por —1 en el interior de los paréntesis, se tiene 
PX — 120 < u < X + 120) = 0.95. (8.23) 
Si se susy el estimado para x = 200 X, se tiene 
P(80 < u < 320) = 0.95, (8.24) 


lo que sugiere que es enteramente posible que la demanda sea tan grande como 250 
unidades o tan pequeña como 150 unidades, siempre que d.e. (X) = 60. Por otro la- 
do, supóngase que la desviación estándar de X es igual a 10. Entonces, la expresión 
correspondiente a (8.23), es 


PX -20<u<X + 20) = 0.95, 
y para Xx = 200, 
i P(180 < u < 220) = 0.95. 


En este caso es poco probable que u sea tan grande como 250 o tan pequeño como 
150. 

En ambos casos la clave para resolver el problema se encuentra en la desviación 
estándar del estimador puntual. En esencia, para la estimación del intervalo se consi- 
deran, tanto el estimador puntual del parámetro 6, como su distribución de muestreo, 
con el propósito de determinar un intervalo que, con cierta seguridad, contiene a 8. 

Para tener una mayor idea acerca de la estimación por intervalo, es necesario in- 
terpretar el significado de (8.23) y (8.24). Dado que X' es una variable aleatoria, el in- 
tervalo X — 120 a X + 120 es un intervalo aleatorio, y la probabilidad de que 
este intervalo contenga el valor verdadero de es de 0.95. En otras palabras, si se ob- 
tuviesen muestras del mismo tamaño en forma repetida de una población, y cada vez 
que éstas se seleccionan, se calculan los valores específicos para el intervalo aleatorio 
(X — 120, X + 120); entonces debe esperarse que un 95% de estos intervalos 
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contengan el valor de la media desconocida u. Por otro lado, el intervalo específico entre 
80 y 320 no es más que una realización del intervalo aleatorio (X — 120, X + 120); 
con base en los datos de una sola muestra, en la que el estimado es x = 200. 

Dado que el valor de probabilidad de 0.95 se refiere sólo al intervalo alentosio 
(X — 120, X + 120), es incorrecto decir que la p probabilidad de que u se encuentre 
contenido en el intervalo (80, 320) es de 0.95. Esto es, no puede asociarse ningún va- 
lor de probabilidad a la proposición 80 < p <. 320, debido a que ésta contiene sólo 
constantes. Sin embargo, la probabilidad de 0.95 para el intervalo aleatorio sugiere 
que la confianza en que el intervalo (80, 320) contenga el valor de la media descono- 
cida up es alta. Sólo én este sentido se permite asignar un grado de confianza a 
la proposición 80 < u < 320 igual a la probabilidad del intervalo aleatorio (Y — 
120, X + 120); así, cuando se escribe 


P (80 <pu< 320) = 0.95, 


no se está formulando ninguna proposición probabilística en el sentido clásico, sino 
más bien se expresa un grado de confianza. De acuerdo con lo anterior, el intervalo 
(80, 320) recibe el nombre de intervalo de confianza del 95% para u. 

En términos generales, la construcción de un intervalo de confianza para un pa- 
rámetro desconocido 0 consiste en encontrar una estadística suficiente T y rela- 
cionarla con otra variable aleatoria X* = f(T; 0), en donde X involucra a O pero 
la distribución de X no contiene a 6, así como tampoco a ningún otro parámetro des- 
conocido. Entonces se seleccionan dos valores x, y x, tales que 


Pax <X<x)=1l-au, 


en donde 1 — æ recibe el nombre de coeficiente de confiaza. Mediante una manipu- 
lación algebraica de las dos expresiones, se puede modificar el contenido entre pa- 
réntesis y expresarlo como 


PIh(T) <9 <h(M] = 1 — a, 


en donde 4,(7) y h,(T)son funciones de la estadística T y de esta forma, variables alea- 
torias. El intervalo de confianza para 0 se obtiene sustituyendo en k;(7) y AT) 
los estimadores calculados a partir de los datos muestrales, dando origen a lo que 
se conoce como intervalo de confianza bilateral. Al seguirse el mismo procedimien- 
to, también pueden desarrollarse intervalos de confianza unilaterales, de la forma 


Plg (1) <0] = 1 - a 


P[O < gAT)] = | = a. 


El primero es un intervalo de confianza unilateral inferior para 0, y el segundo es un 
intervalo de confianza unilateral superior. 

A continuación se examinarán varias situaciones que involucran la construcción 
de intervalos de, confianza para medias y varianzas poblacionales. Será aparente que 


* Este método recibe, en general, el nombre de método pivotal, y X se conoce entonces como variable 
aleatoria pivotal. 


2714 Estimación puntual y por intervalo 


la discusión aquí pre enian tiene un n ierte psa al material de cies secciones 7. p 
aT.8. - OA puis Hr ; ; > i 


8.4.1 “Intervalos de confianza" para Aé cuando se se inuestrés 
Lo Una distribución normal con varianza conocida E 


Sea: Xi, X2, .:.; X, una muestra aleatoria de una distribución omal con media 
desconocida u, pero con una varianza o?conocida. El interés recae en la construcción 
de un intervalo de confianza de un 100(1 — «a)% sobre y en donde a es un núme- 
ro pequeño, tal que 0 < a < 1. La construcción de un intervalo de confianza se hace 
con base en el mejor estimador de p, explícitamente la media muestral X. 

Para ilustrar el enfoque fundamental para la construcción de intervalos de con- 
fianza, considérese la proposición probabilística dada por (8.22). Sumando dentro 
de los paréntesis, se tiene 


Plu — 120 < Ẹ < u + 120) = 0.95. 
De esta forma, los límites 4 — 120 y p + 120 son funciones de los posibles valores 
de u. Por lo tanto, y en general, se puede escribir 
Ple) < X< gm] =l-a, (8.25) 


de manera tal que : 
ga) f > 


_, S; dI = a/2 


ll 


E dx = a/?, 


en donde f(X; u) es la función de densidad de la distribución de muestreo de X, y 
gu) y g2( 11) son funciones de p las cuales no contienen a ningún otro parámetro 
desconocido. 

De interés inmediato es la determinación de g(1) y g2(1). Dado que X —Níu, 
7/Vn), la normal estándar Z = (X — u)/(a/Vn), y 


Ez g(a) — A e] 
P X =P A a Z < =*=] =ł-—a. (8.26 
[g (p) < X < gu) | A < Va a. (8.26) 


Pero ya que Plz. < Z < 21-41) = 1 — a, en donde los valores cuantiles 2a/? 
Y Zi-a/2 SON tales que P(Z < zaz) = 4/2 y P(Z<Z21 2) = l — a/2, respectiva- 
mente, se sigue que 


gu) — u 
SN O 8.27 
o/Vn o j l 
y 
g2(1) =B _ l . (8.28) 


Zi -0/2 
o/V\n di 
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Dando solución a (8. m y (8. a en terminos de 2:(u) y 8), respectivaménte, 
se obtienen boa daddeidena 


b E ES 


ds de a S Ez à si uT 20186b ¿01 us 


M i a. AN 
EM) = LE Zan J o. 0150 A fab (8/29) 
n 
t: e N 

COET EE (8.30) 

2 iag l-a/2 Un . . 

a n se rs 
Dado que para lá normal estándar Z«/2 = —2,- -a/2 puede sustituirse ~Z,- ./2 para 


Zaj2 en (8.29).-De acuerdo con lo anterior, pueden sustituirse las expresiones (8.29) 
y (8:30) para g,(u) y 24m), respectivamente, en (8.25) para obtener 


plo -= -an A< <a + uan 2) =1-a. (8.31) 


Vn Vn 


Al manipular las desigualdades que se encuentran dentro de los paréntesis en (8.31), 
se tiene 


p(x 2 a ja Spata 5) =1-a, (8.32) 


que es una generalización de la proposición probabilística (8.23). La probabilidad de 
que el intervalo aleatorio de X — z-a (0/Vn) a X + 2i_a/2 (0/Y/n) conten- 
ga el verdadero valor de la media 4 es 1 — «. Si se reemplaza la variable aleatoria 
X en (8.32) por el estimado x calculado a partir de los datos de una muestra de tama- 
ño n, un intervalo de confianza del 100(1 — a)% para y, es 


e o 
X Z Za > 
“Vn 


endonde X — Zı-a/2 (E/V) y x + Zi-a/2 (a/Vn) reciben el nombre de límites de 
confianza inferiores y superiores, respectivamente, para y. Esto es, el intervalo 
de confianza (8.33) es un intervalo estimado para y. 

Al examinar el intervalo de confianza para 4 dado por (8.33), es fácil, relativa- 
mente, observar que entre más grande es el tamaño de la muestra, más pequeño es el 
ancho del intervalo; o para un coeficiente de confianza 1 — œ más grande, mayor 
es el ancho del intervalo. Ambos resultados son lógicos ya que un tamaño grande de 
la muestra disminuirá la varianza del estimador, y un coeficiente de confianza gran- 
de incrementa el valor cuantil dando como resultado un intervalo más amplio. 


(8.33) 


Ejemplo 8.9 Los datos que a continuación se dan son los pesos en gramos del con- 
tenido de 16 cajas de cereal que se seleccionaron de un proceso de llenado con el pro- 
pósito de verificar el peso promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 
505, 493, 496, 506, 502, 509, 496. Si el peso de cada caja es una variable aleatoria 
normal 'con una desviación estándar o = 5 g, obtener los intervalos de confianza 
estimados del 90, 95 y 99%, para la media de llenado de este proceso. 


INTA DIRA ARO 0 PA AS TS RETAMA AURA. TA 
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Para un coeficiente de confianza del 90%, a. = 0.1. El valor Zoss se obtiene de 
la tabla D del apéndice y es igual a 1.645, ya que P(Z > 1.645) = 0.05. Con base 
en los datos muestrales, el valor de x es de 503.75 g. Entonces un intervalo de con- 
fianza del 90% para la media del proceso de llenado es 


5 
503.75 + 1.645 —= 


a 


o de 501.69 a 505. 81. Los otros intervalos de confianza deseados se obtienen si- 
guiendo el mismo procedimiento. Los resultados se encuentran resumidos en la tabla 
8.1. 

En este momento se considerará un problema que es enteramente similar al del 
ejemplo 8.2. Supóngase que se especifica que el muestreo se efectúa sobre una 
población que tiene una distribución normal con media y desconocida y varianza 
a? conocida. Se desea estimar el tamaño necesario de la muestra de manera tz! qu”, 
con una probabilidad de 1 = «, la media muestral X se encuentre en un intervalo 
igual a e unidades alrededor de la media de la población m. La expresión (8.31) 
puede reescribirse como 


rl T T E tama) ia (8.34) 
la cual da como resultado 
POX -pu<s=1!-0 
en donde 
Z (8:35) 


€ = 21 zp /2 Vna . 
Al resolver para n en (8.35) se obtiene el resultado deseado, 


2 
Az (==) (8.36) 


E 


La única diferencia entre las expresiones (8.6) y (8.36) es que la primera se obtu- 
vo sin especificar la distribución de la población, mientras que para la segunda se su- 
puso que el muestreo se llevaba a cabo sobre una distribución normal. Por lo tanto, 
es razonable esperar, a pesar de que las dos expresiones sean iguales, que un valor de 
n obtenido mediante el empleo de (8.36) será mucho más pequeño que el correspon- 
diente valor que se obtiene mediante e! empleo de (8.6), debido a que para (8.36) se 


TABLA 8.1 Intervalos de confianza para el ejemplo 8.9 


Confianza Zia Limite inferior Límite superior 
90% 1.645 501.69 505.81 
95% 1.96 501.30 506.20 


997% 2.575 500.53 506.97 
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formularon más hipótesis. Para comparar, si se supone que se está muestreando una 


distribución normal, el tamaño de la muestra aque corresponde a las condiciones da~ 
das enel a 8.2, podria ser A a baki 


Ve : al 


_ (1.645 10. 
= A =7, 
$ bai 3 
comparado con el valor de n = 25 dado por (8.6). 
Desde el punto de vista de la aplicación, el hecho de que ambas expresiones ten- 
gan como hipótesis el conocimiento de la varianza de la población o? constituye un 
requísito muy severo. Si no se conoce el valor de o? debe usarse un estimado de o? 
que quizá pueda encontrarse en una muestra previa. Si este estimado no se encuentra 
disponible pero se conoce, en forma aproximada, el intervalo en el cual se en- 
cuentran las mediciones, una estimación muy burda de la desviación estándar es 
igual a la sexta parte del recorrido de las observaciones, ya que para muchas distri- 
buciones unimodales la gran mayoría de las observaciones se encontrarán dentro de 
un intervalo igual a tres desviaciones estándar, ya sea a la izquierda o la derecha 
de la, media. 


8.4.2 Intervalos de confianza para u cuando se muestrea 
una distribución normal con varianza desconocida 


Se considerará el problema de encontrar un intervalo de confianza para u, cuando 
se muestrea una distribución normal y para la cual no se tiene conocimiento acerca 
del valor de la varianza. De la sección 7.6, recuérdese que cuando se muestrea una 
N(u, 0), en donde tanto 4 como g? son desconocidos, la variable aleatoria 


„X-u 
S/\Vn 
tiene una distribución ź de Student con n — 1 grados de libertad. Por lo tanto, es po- 


sible determinar el valor cuantil £,_,,, ,., de T, para el cual 


P(—ti-an n- STS than> (8.38) 


(8.37) 


en donde el valor cuantil es tal que P(T < ~ti az. n-1) = &/2y PIT < tinap n-1) 
= | — q/2. Al sustituir para T en (8.38), se tiene 


X-u 
P Sir- ni Sae a a/?2.n-ł = l za 


o 
S y S 
p| -iani <I -= TEA =l- a 
y 
p(x = Ciotat A + haria) = l —= «A. (8.39) 
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-Por lo tanto, el intervalo X-+'t,_,; ,-¡(S/Vn) es un intervalo aleatorio y la 
probabilidad de que éste contenga el valor verdadero de u, es 1 — &. De esta forma, 
dados los datos de una muestra aleatoria de tamaño n a partir de los cuales se calcu- 
lan los estimados x y s”, un intervalo de confianza del 100(1 — a)% para u es 


s 
X hian. n-177F- 
l Vn 


y 


(8.40) 


Con propósitos de ilustración y comparación, la tabla 8.2 lista los intervalos de con- 
fianza del 90, 95 y 99% parau, con base en (8.40) y mediante el empleo de los datos 
del ejemplo 8.9, en dónde Xx = 503.75 y's = 6.20. Nótese que para el caso que invo- 
lucra a la distribución t de Student, los intervalos son más amplios. 


8.4.3 Intervalos de confianza para la diferencia de medias cuando se 
muestrean dos distribucicnes normales independientes 
Sean Xy, X2, ..., Xny Y Yi, Y,,..., Y,, dos muestras aleatorias de dos distribu- 
ciones normales independientes, con medias uy y uy y varianzas o? y v}, respecti- 
vamente. Se desea construir un intervalo de confianza para la diferencia uy — uy. 
Supóngase que se conocen los valores de las varianzas. Entonces, de la sección 7.7, 
la variable aleatoria 
I 


Z = — === (8.41) 
ny Ny 

es N (0, 1). De esta forma es posible encontrar el valor cuantil z; -a/2, tal que 

Pl-Z1-a/n <Z< Zi-a/2) =1-a. (8.42) 


- Mediante la sustitución de (8.41) en (8.42) y después de manipular algebraica- 
mente las desigualdades, se tiene 


2 2 
G 5 Ty Ty 
p(z - P- aon Er 


x Ry 
=>. sz oz a 
<X-Y+tza + zi) =1-a, (8.43) 
ny ny 
TABLA 8.2 Intervalos de confianza para el ejemplo 8.9 
Confianza lizamazi Límite inferior Límite superior 
90% 1.753 501.03 506.47 
95% 2.131 500.45 507.05 
99% 2.947 499.18 508.32 
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que es un intervalo aleatorio que. no contiene parámetros desconocidos. sAl igual 
que en el caso de la sección 8.4.1, la variable aleatoria pivotal esla normal estándar 
Z. De acuerdo'con lo anterior, un intervalo de confianza del 100(1 — a)% para 
Mx > Hy es- kai i y cnica 


. $ : 2 2 
O E Xx - y E Z1-a/2 = + — EN Eg (8.44) 
i nx ny Lo o 


en donde el valor cuantil Z, -a/2, es tal que P(Z < zi-a2) = 1 — @/2. 
Si las varianzas a? y ø? se desconocen pero son iguales, entonces la variable 
aleatoria 


y -X-Y- (4% un 


tiene una distribución f de Student con k = nx + ny — 2 grados de libertad. 
Al seguir el procedimiento anterior, se tiene que un intervalo de confianza del 100(1 
— aJ% para Mx — Hy, es 


X — Y + TO J+ +=, (8.45) 


en donde el estimado combinado de la varianza común es 


(Mx — Is + (ny — Ds; 


nx + ny- 2 


2 
P 


Ejemplo 8.10 Se piensa que los estudiantes de licenciatura de contaduría pueden 
esperar un mayor salario promedio al egresar de la licenciatura, que el que esperan 
los estudiantes de administración. Recientemente se obtuvieron muestras aleatorias 
de ambos grupos de un área geográfica relativamente homogénea, proporcionando 
los datos que se encuentran en la tabla 8.3. Determinar un intervalo de confianza 
unilateral inferior del 90% para la diferencia entre los salarios promedio para los es- 
tudiantes de contaduría y los de administración u, — uy al egresar de la licenciatu- 
ra (suponga que las varianzas o; y c; son iguales), 


A partir de los datos muestrales dados, pueden calcularse las siguientes cantidades: 


na = 10 ny = 14 
Y, = 16250 Ya = 15.400 
s4 = 1187222.22 s} = 1352 307.69 


sÈ? = 1 284 772.73 
s, = 1133.48. 
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TABLA 8.3 Salarios anuales iniciales para recién graduados: 2600 ian a7 5 p3 


Contadores ios e iones a 3: Administradores uiy act i 
$16 300 < ` $13200 . nop GEA 
18 200 15 100 
17500 , 13 900 
16 100 f . de E 14 700 
15 900 15 600 
15 400 15800 ~ 
15 800 14 900 
17 300 E 18 100 
14 900 15 600 
15 100 15 300 
- 16200 
15 200 
15 400 
16 600 


Entonces, un intervalo de confianza unilateral inferior del 90% está dado por 


l l 
Xa 7 Yy — los. 22 s J= HR 
Pa Am 


en donde el valor ty, », = 1.321, ya que para la distribución t de Student, P(T < 
1.321) = 0.9. Al Sustituir los resultados numéricos, se tiene 


l l 
16 250 — 15 400 — (1.321)(1133.48) e + u 230.05. 


De esta forma, un intervalo de confianza unilateral del 90% para la diferencia real 
entre los salarios promedio es de $230.05. 


8.4.4 Intervalos de confianza para o? cuando se muestrea 
una distribución normal con media desconocida 


Se examinará el problema de construcción de un intervalo de confianza para la va- 
rianza de la población o” cuando se muestrea N(u, 0). De la sección 7.5, se recor- 
dará que bajo estas condiciones, la distribución de muestreo de (n — 1)S%/a” es 
chi-cuadrada con n — 1 grados de libertad. Entonces es posible determinar los valo- 
res cuantiles Xa. 1-1 Y Xi-ajz n- 1, tales que 


3 AS a 
Pa mol < £ uo < Xi -a72 A = l Ta. (8.46) 
Ls 


Puede expresarse (8.46) como 


l 3 l 
P| > > Ed ->= | = 1 -a. 
Xa/?. n-i (n a 1357 Xi -a/2. mol 
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E SDS m- nel os 
X1-a/2. n- $ Si ` Xan, n-ren E RE 


es un intervalo Aleatorio el cual contiene a o? y a Parimeirós comoda con 
una probabilidad de 1 — «a. De esta forma, con base en los datos de una muestra 
aleatoria de tamaño n, se calcula el estimado s° y un intervalo de confianza del 
100(1 — a)% para a”, es de (n — 1)s/xi_aj. palm — 1Ds/xo2. n-1- Es intere- 
sante notar que la variable aleatoria pivotal es (n — 1)5*/0? ya que su función de 
densidad, dada por (7.16), no contiene ningún parámetro desconocido. 


Entonces el intervalo 


Ejemplo 8.11 Un proceso produce cierta clase de cojinetes de bola cuyo diámetro 
interior es de 3 cm. Se seleccionan, en forma aleatoria, 12 de estos cojinetes y se mi- 
den sus diámetros internos, que resultan ser 3.01, 3.05, 2.99, 2.99, 3.00, 3.02, 2.98, 
2.99, 2.97, 2.97, 3.02 y 3.01. Suponiendo que el diámetro es una variable aleatoria 
normalmente distribuida, determinar un intervalo de confianza del 99% para la va- 
rianza a? 


Dado que la confianza deseada es del 99%, œ = 0.01.De la tabla E del apéndice, 
los valores cuantiles Xówos. 1 y Xows. 1 son 2.60 y 26.71, respectivamente. Para 
terminar, el valor calculado de la varianza muestral es s” = 0.0005455. Por lo tanto, 
un intervalo de confianza del 99% para o” es 


(12 — 1)(0.0005455) (12 — 1)(0.0005455) 
26.71 ' 2.60 ` 


(0.0002246, 0.0023079). 


Como lo ilustra este ejemplo, el punto medio de un intervalo de confianza para 
una varianza no coincide con el valor del estimador puntual. Sin embargo, cuando 
se construye un intervalo simétrico como lo es el de la media cuando se muestrea una 
distribución normal, el punto medio del intervalo de confianza coincide con el esti- 
mador puntual. 


8.4.5 Intervalos de confianza para el cociente de dos varianzas cuando 
se muestrean dos distribuciones normales independientes 


En el medio industrial muchas veces surge la necesidad de medir y comparar las va- 
riabilidades de dos procesos distintos. Supóngase que se tienen muestras aleatorias 
provenientes de dos distribuciones normales con medias y varianzas desconocidas. 
Sean nx y ny,el tamaño de las muestras y Sz y SẸ las varianzas muestrales. El inte- 
rés se centra en construir un intervalo de confianza para el cociente 0;/0; de las 
dos varianzas poblacionales. De la sección 7.8, se recordará que la variable aleatoria 
(Sz/0x)/(S 7/07) tiene una distribución F con ny — | y ny — 1 grados de liber- 
tad. Entonces puede escribirse 
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21 2. de E E 
p(a< Sx/0x <») =1-a, (8.47) - 


Sila 


en donde a y b son los valores cuantiles inferior y superior de una distribución F tales 
que yia : Ja . 


Ketah e 


a= cdi y b= fi-a. n-i n-i 
La proposición de probabilidad dada por (8.47) se puede expresar como 


2 2 
p(a< Eo) = 120 


2 
Sy oy 


2 2 2 
P(S Tr < Si) PEER (8.48) 


S ~o S} 
De esta manera, un intervalo de confianza del 100(1 — a)% para o;/0; está dado 
por ; 
(asy/si, bsy/sx). 


; Para ilustrar, recuérdese el ejemplo 8.10. Supóngase que se desea un intervalo de 
confianza del 90% para c/c}. De la tabla G, los valores cuantiles son z 


a = 1/f.os 15.9 = 1/3.05* = 0.328, 


b = foss. 91 = 2.71. 


Ya que så = 1187 222.22 y sẹ = 1 352 307.69, un intervalo de confianza del 
90% para el cociente 4/04 de las dos varianzas desconocidas es 


[(0.3281(1 352 307.69)/1 187 222.22, (2.71X(1 352 307.69)/1 187 222.22] 


(0.3736, 3.0868). 


8.4.6 Intervalos de confianza para el parámetro de proporción p 
cuando se muestrea una distribución binomial 


El porcentaje de productos defectuosos de un proceso de manufactura es el baró- 
metro más importante para medir la calidad del proceso para manufacturar un pro- 
ducto dado. Ya que un artículo puede estar defectuoso o no, el número de unidades 
defectuosas es una variable aleatoria binomial, si se supone una probabilidad cons- 
tante e independencia. En una muestra aleatoria de tamaño n el parámetro p que 
representa la proporción de artículos defectuosos es desconocido. Se desea determi- 


* Por interpolación. 


Es 
kA 
5] 
ed 
ES 


RO E AS 
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narun intervalo de confianza para p. A pesar de que es posible determinarintervalos 
. de confianza exactos para p (véase [2)), se optará por un intervalo de confianza ba- 
sado en una muestra grande. La razón de esta decisión tiene sus raíces en.el teorema 
5.1, el:cual establece qué la-distribución de una variable aleatoria EIncmie! tiende 
hacia una normal cuando n tiende a infinito. e 

Se demostró en el ejemplo 8.6 que el estimador de máxima verosimilitud de P, 
denotado por P, es 


A P = X/n, (8.49) 


en A es binomial con parámetros n y p. Nótese que Ê es un estimador insesga- 
do de p, ya que 


a l 
EP) = y EX) = np/n = p. 


I 2 varianza de Ê se puede obtener de la siguiente forma: 


Var(P) = Var(X/n) 


l 
~ E[np(1 — p)] 
n 


Il 


p(l — p)/n. (8.50) 


Recuérdese que para n grande, la variable aleatoria (X — np)/Vnp(l — p) es 
.aproximadamente N(0, 1). Entonces puede demostrarse que la distribución de 


P-p 


Pa - Ê) 
n 


también tiende a N(0, 1) para n grande. De esta forma, la probabilidad del intervalo 


aleatorio 
5 PU-P , Pa — Ê 
|? ia A Ê + zian g] (8.52) 


es, en forma aproximada, 1| — a para n grande. De acuerdo con lo anterior, un in- 
tervalo de confianza aproximado del 100 (1 — a)% para el parámetro de proporción 


P, €s 
[o = lan [Pe — Ri: P + aan A — dl (8.53) 
n n 


en donde el estimador de máxima verosimilitud = x/n se obtiene de la muestra 
aleatoria de tamaño n. 


(8.51) 
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Ejemplo 8.12 Un fabricante asegura, a una compañía que le compra un producto 
en forma regular, que el porcentaje de productos defectuosos no es mayor del 5%, 
La compañía decide comprobar la afirmación del fabricante seleccionando, de su in- 
ventario,-200 unidades de este producto y probándolas. ¿Deberá sospechar la com- 
pañía de la afirmación del fabricante si se acid un total de 19 unidades defec- 
tuosas en la muestra? ; 


La sospecha estará apoyada si existe un intervalo de confiabilidad alta para el 
cual la proporción p se encuentra completamente a la derecha del valor asegurado 
0.05. Se selecciona una confiabilidad del 95%. Dado que la realizacion de la variable 
aleatoria X es x = 19 y n = 20, el estimado de p es 19/200 = 0.095. Al sustituir en 
(8.53), se tiene 


0.095(1 — 0.095) PA — 0.095) 
[0.098 = 196 / 200 , 0.095 + 1.96 ao 


el cual resulta ser (0.5436, 0.1356). Aparentemente existe una razón para sospe- 
char de la afirmación del fabricante, ya que el intervalo de confianza se encuentra 
completamente a la derecha del valor asegurado. 

Con respecto al muestreo de una distribución binomial, un problema que surge, 
en forma frecuente, es el de estimar el tamaño de la muestra necesario de manera tal 
que cor una confiabilidad de 100(l — «a)% aproximadamente, el estimado del pa- 
rámetro de proporción se encuentre a no más de e unidades de p. Dado el estimador 
de máxima verosimilitud X/n y siguiendo el mismo procedimiento de la sección 
8.4.1, puede expresarse (8.52) como 

< e) =l-a, 


rl z =p 
n 
a Je = p) 
E T 
n 


Al resolver para n, se obtiene 


n = |z} 2 pll — p/e. (8.54) 


en donde 


Nótese que en la expresión anterior n es una función del valor deseado de p. 
Dado que éste no se conoce y, de hecho, es la cantidad que se está intentando estimar, 
lo que de manera general se hace es determinar el valor más conservador de n. Esto 
ocurre cuando la cantidad p(l — p) es máxima. Pero puede demostrarse que para 
0 <p < 1, p(l — p) es un máximo cuando p = 1/2. En otras palabras, el valor p = 
1/2 es el que debe emplearse para obtener el tamaño deseado de la muestra con base 
en (8.54). 

A manera de advertencia, los métodos presentados en esta sección deben usarse 
sólo cuando el tamaño de la muestra es suficientemente grande. De otro modo, de- 


8.5 Estimación bayesiana 285 


berán emplearse los intervalos de confianza exactos. A lo largo de estos lineamien- 
tos, de nuevo debe hacerse énfasis en que se supuso que el muestreo siempre se lleva- 
ba a cabo sobre una distribución normal. La construcción de intervalos de confianzá 
para las variañizas es, en forma especial, sensible-a esta hipótesis. Cualquier des? 
viación sustantiva de esta hipótesis significará una pérdida de la validez de la infe- 
rencia formulada con respecto a las varianzas. Por otro lado, los métodos para in- 
tervalos de confianza que involucran medias son, eh forma relativa, inmunes a 
modestas desviaciones de la hipótesis de normalidad siempre y cuando el tamaño de 
las muestras sea grande. De esta forma, los métodos presentados de la sección 8.4.1 
a la 8.4.3, tienen una gran validez para muestras de gran tamaño, aun si el muestreo 
no se lleva a cabo sobre una distribución normal. 

Para ilustrar que el uso de la distribución ź de Student sigue siendo válido para 
inferencias con respecto a las medias, aun a pesar de que se muestree una distribución 
que no es normal, se simuló el siguiente experimento mediante el empleo del paquete 
IMSL. Se generaron 1 000 muestras de tamaños 15, 30 y 50, a pari: de una distribu- 
ción exponencial con parámetro 0 = 1”. Ya que 0 es la media de una variable alea- 
toria exponencialmente distribuida, se empleó (8.40) para calcular un intervalo de 
confianza del 95% para 0 para cada muestra aleatoria y se contó el número de inter- 
valos que no contenían el valor supuesto de 10. Para n = 15 se encontró un total 
de 86 de estos intervalos; para n = 30 se tienen 68 y para n = 50 se encontraron 55. 

Si el muestreo se hubiese llevado a cabo sobre una distribución normal, se 
esperarían (0.05) (1 000) = 50 de estos intervalos, de entre 1 000. Parece ser que los 
resultados se acercan a los esperados bajo un muestreo de una distribución normal 
conforme aumenta el tamaño de la muestra aun a pesar de que ésta no provenga de 
una distribución normal. De acuerdo con lo anterior, el efecto que se tiene por una 
violación de la hipótesis de normalidad cuando se utiliza la distribución + de Student, 
parece ser pequeño, aun para un tamaño » relativamente modesto. 


8.5 Estimación bayesiana 


Hasta este momento se ha estudiado la inferencia estadística desde el punto de vis- 
ta de la teoría del muestreo, el cual se basa en la interpretación de la probabilidad 
como una frecuencia relativa. En esta sección se estudiará el enfoque bayesiano de la 
inferencia estadística y, en particular, a la estimación de parámetros. Recuérdese 
que el enfoque bayesiano se basa en la interpretación subjetiva de la probabilidad, el 
cual considera a ésta como un grado de creencia con respecto a la incertidumbre. El 
punto de vista bayesiano considera un parámetro desconocido como una caracterís- 
tica con respecto a la cual puede expresarse un grado de creencia que puede modifi- 
carse con base en la informacion muestral. Una inferencia con respecto al parámetro 
se formula con base en el grado de creencia modificado. En otras palabras, un pará- 
metro es visto como una variable aleatoria a la que, antes de la evidencia muestral, 
se le asigna una distribución a priori con base en el grado de creencia con respecto al 
comportamiento del parámetro aleatorio. Cuando se obtiene la evidencia muestral, la distri- 
bución a priori es modificada y entonces surge una distribución a posteriori. Es esta distribu- 
ción a posteriori la que se emplea para formular inferencias con respecto al parámetro. 
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El enfoque bayesiano para la estimación de parámetros ha sido favorecido por 
muchas personas, en forma especial en aquellas situaciones en las que un parámetro 
no puede considerarse, en forma real, como una cantidad fija. Por, ejemplo; es pro- 
bable que la verdadera proporción de artículos defectuosos. que produce un proceso 
de manufactura fluctúe ligeramente, lo cual depende de numerosos factores, como 
se mostró en el ejemplo 6.9. Es probable que la verdadera proporción de casas que se 
pierden por concepto de hipoteca varíe dependiendo, en primer lugar, de las condi- 
ciones económicas. La demanda promedio semanal de automóviles también fluc- 
tuará como una función de varios factores incluyendo la temporada. 


8.5.1 Estimación puntual bayesiana 


En esta sección se considerará la determinación de estimadores puntuales baye- 
sianos. Dado que se considera a un parámetro como una variable aleatoria, se deno- 
tará a éste por el símbolo € y con 6 ala realización de O. Supóngase que O es una 
variable aleatoria continua* con una función de densidad (a priori) incondicional 
fo(0), la cual refleja la creencia a priori con respecto a la incertidumbre de O. 
La información muestral se encuentra representada por n variables aleatorias HD 
Xy, X2, -.., Xn con una densidad f(x | 9) condicional común sobre la realización 
9 de O. Del capítulo 7, la función de verosimilitud, condicional a un valor particular 
0, es 


LXi, X25 .., Xn O = f(x,10)f(x21 0) -"* f(x, ] 0). (8.55) 


Es importante hacer énfasis en que aun cuando € es una variable aleatoria, el obje- 
tivo es estimar el valor particular de 0 para el cual la evidencia muestral que repre- 
senta la función de verosimilitud se encuentra condicionada. Es decir, © es una 
variable aleatoria no observable que puede tomar varios valores (entre ellos 9,) que 
deriven el resultado muestral. Mediante el empleo del teorema 6.2 y, en particular, 
Ed la densidad a posteriori de O dado el resultado muestral x = (x,, x2, ..., 
Xaj es 


ES 
se 
$ 
4 
* 


a 


(8.56) 
o LE | Dfo(0)d0 


Se sabe que la densidad a posteriori f(0 | x) representa el grado de creencia modifi- 
cado con respecto a la incertidumbre de O. Pero ¿cómo debe usarse la densidad a 
posteriori para obtener un estimador puntual de 0? Para este propósito, el enfoque 
bayesiano** toma en cuenta una función de pérdida, que representa la consecuen- 
cia económica resultante de haber escogido a 1 = u(x) como el valor estimado cuando 
el valor verdadero es 6. Esto es, la función de pérdida evalúa la pérdida económica 
cuando se dice que el valor de 8 es f, cuando éste es 9. Una función de pérdida, de- 
notada por (t, 6), es una función no negativa de t y 0 de tal forma que ésta es cero 


* Es más probable que un parámetro desconocido sea continuo que discreto, pero este último caso 
puede manejarse en forma similar. 
** Para una presentación más completa del enfoque bayesiano se invita al lector a que consulte [6]. 
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sólo si £ es igual a 0. Nótese que la función de pérdida depende del parámetro aleato- 
rio 6; por lo tanto, ésta también es una variable aleatoria. En este momento se está en 
condiciones de definir un estimador bayesiano. 


Definición 8. 8 “Sea fə(0) la función de densidad a priori de un Parámetro: 9,y 
L(X 1, X2, -»., Xn 10) la función de máxima verosimilitud de una muestra aleatoria de 
n variables aleatorias IID condicionadas sobre la' realización O de O. Además, sea 
F(6 | x) la función de densidad a posteriori de O, y sea I(t, O) la función de pérdi- 
da. El estimador Bayes de 0, T = u(X,, X,, ..., X), es aquél para el cual el valor 
esperado de la función de pérdida dada por 


Elkt, ©) = f Kt, OfO | x)d0 
es minimo. l 


En la definición 8.8 es claro que para determinar un estimador Bayes, debe espe- 
cificarse una función de pérdida. La especificación de esta última es una tarea difi- 
cil, ya que las consecuencias económicas no son fácilinente medibles. En muchos 
problemas de aplicación puede formularse un argumento razonable para utilizar una 
función de pérdida de la forma. 


(1,0) = (t — oy, (8.57) 


la cual se conoce como función de pérdida cuadrática o de error cuadrático. Para 
una función de pérdida cuadrática puede demostrarse que el estimador Bayes de 0 
es igual a la esperanza a posteriori E(O | x), de O. En otras palabras, la media de la 
distribución a posteriori de O es el estimador Bayes de 0 para una función de pérdi- 
da de error cuadrático. Nótese que ésta es una elección razonable para estimar el va- 
lor de la realización 0, ya que la media de una variable aleatoria es una medida de 
tendencia central y representa el centro de gravedad de la distribución de probabili- 
dad de la variable aleatoria. 


Ejemplo 8.13 Un vendedor distribuye sistemas estereofónicos, los cuales garantiza 
por un periodo de dos años. Con base en información previa, el vendedor piensa que 
la proporción de unidades que serán enviadas a servicio o a reemplazo durante el pe- 
riodo de dos años tiene un valor cercano a 0.04, aunque existen ligeras variaciones 
de este valor. El vendedor piensa asignar a priori una distribución beta a la propor- 
ción con parámetros & = ly 8 = 24. Con base en una muestra aleatoria de 25 
unidades, el vendedor observa dos unidades que necesitarán servicio o reemplazo 
durante el periodo de dos años. Suponiendo que el número de unidades que necesita- 
rán, ya sea servicio o reemplazo en una muestra fija de n unidades, es una variable 
aleatoria binomial, obtener el estimador Bayes de la proporción. 


En el ejemplo 6.9, se demostró que, para las condiciones de este problema, la 
distribución a posteriori de la proporción también es una distribución beta con una 
densidad dada por (6.36). Denótese a la proporción aleatoria por P. Ya que los pará- 
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metros de la densidad a posteriori de P son x + a yn + fB — x, y mediante el 
empleo de (5.40), la media a posteriori. 
x+a 
| o aaa o? 
es el estimador Bayes de la realización p. Antes de calcular el valor del estimador, es 
conveniente comparar el estimador Bayes con el estimador de máxima verosimilitud 
x/n, que se obtuvo en el ejemplo 8.6. Nótese que el estimador Bayes coincide con el 
de máxima verosimilitud sólo si œ = 8 = 0. Para este problema el resultado 
muestral para n = 25 es x = 2, y los valores de los parámetros a priori son œ = ly 
B = 24. De esta forma, el estimador Bayes es (2 + 1)/Q5 + 1 + 24) = 0.06, 
y por comparación, el estimador MV es 2/25 = 0.08. 

Por lo tanto, es evidente que el estimador Bayes se encuentra influenciado tanto 
por el resultado muestral como por la distribución a priori. De hecho, puede decirse 
que si la distribución a priori tiene una varianza pequeña, lo que implica un alto gra- 
do de creencia con respecto a un parámetro aleatorio, entonces la media a posteriori 
tendrá un valor muy próximo a la media a privri. Supóngase, para el ejemplo 8.13, 
que los valores de a y 8 fuesen 2 y 48 en lugar de 1 y 24, respectivamente. En- 
tonces el valor de la media a priori debería ser igual al que se dio en 2/(2 + 48) = 0.04 
pero la varianza a priori debe ser, ahora, igual a 0.0007529, que es un valor más pe- 
queño que el anterior (0.0014769). El resultado es la media (2 + 2)/(25 + 2 + 48) 
= 0.0533 y se encuentra más cercano al valor de la media a priori que el estimado 
previo. Por otro lado, si la distribución a priori tiene una varianza muy grande, ésta 
debe ser virtualmente plana, lo cual implica que la creencia a priori con respecto a la 
incertidumbre de un parámetro aleatorio es vaga. En tal caso, la evidencia muestral 
debe tener mucho más peso en la distribución a posteriori que en la distribución a 
priori, y los estimadores de Bayes y MV deberán ser, virtualmente, los mismos. 

El tamaño de la muestra n también tiene influencia sobre la cercanía entre los es- 
timadores Bayes y MV. En general, los estimadores Bayes y MV diferirán entre sí 
por una cantidad que es pequeña cuando se compara con 1/yn. De esta manera, 
para tamaños de la muestra relativamente grandes ambos estimadores se encontra- 
rán muy cercanos el uno del otro. 


8.5.2 Estimación bayesiana por intervalo 
Se puede determinar un intervalo estimado para Y mediante el uso de la función de 
densidad a posteriori del parámetro aleatorio O. 


Definición 8.9 Sea f(9 | x) la función de densidad a posteriori de Y condicionada 
sobre el resultado muestral t x = (x,, X2, ..., x,f, sean a y b límites tales que 


h 
Pla<Ə<bj|x)= | fO | de = y. (8.59) 
en donde a y b son funciones del resultado muestral x. Entonces el intervalo (a, b) 


es un intervalo bayesiano tal, que la probabilidad de que 8 se encuentre contenido 
en (a, b) es y. 
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A diferencia de los intervalos de confianza de la sección 8.4, un intervalo baye- 
siano es, en efecto, un intervalo de probabilidad. En otras palabras, puede decirse 
que la probabilidad de que y se encuentre: contenido en el intervalo a, b es 6, 
mientras que con un intervalo de confianza sólo puede decirse que una cantidad de 
100y% ` de estos intervalos contendrán el valor real de 9. 

Para ejemplificar un intervalo de probabilidad bayesiano, sea X,, X>, ..., X, la 
muestra aleatoria de una distribución normal con media u desconocida y varianza 
o? conocida. Supóngase-que la media es un parámetro aleatorio al cual se piensa 
asignar una distribución normal a priori con una función de densidad 


fulu) = -= expl- (u — m)/20}] -A<p<x, 


oy 27 


donde o y o son la media y la varaiza a priori, respectivamente. De la presenta- 
ción previa (véaz: e! 2jemplo 8.7), la función de verosimilitud dada la realización u 
es 

L(x, X2, «Xx | p) = Qro?) "expl ~ Mx, — 11)*/207 1. 


Entonces, puede demostrarse que la densidad a posteriori de la media condi- 
cionada sobre x también es normal con media 


noX + ya? 


EM = > .60 
` ( ES na + a (8.60) 
y varianza 
M ooi 
V = ———.. 3 
ar(M | x) e (8.61) 


De esta forma, el estimador Bayes de u para una función de pérdida o error cuadrá- 
tico está dada por (8.60). Al igual que en el ejemplo 8.13, nótese que un valor pe- 
queño de la varianza a priori o proporcionará un esumador Bayes para u mucho 
más cercano a la media a priori pọ. Además, para uo y dí, fijas, conforme n crece 
el estimador de Bayes tiende al estimador de máxima verosimilitud X. 


Ejemplo 8.14 Recuérdese el ejemplo 8.9 en el que se determinaron los intervalos de 
confianza del 90, 95 y 99% para el llenado medio u con base en los pesos de 16 cajas 
de cereal seleccionadas en forma aleatoria y en donde se supuso que los pesos esta- 
ban normalmente distribuidos con o = 5 gr. Debido a pequeñas perturbaciones en 
el proceso de llenado, supóngase que el llenado medio es una variable aleatoria nor- 
malmente distribuida con media uy = $00 y desviación estándar o, = 1. Determi- 
nar los intervalos de probabilidad bayesiana 0.9, 0.95 y 0.99 para u. 

Del ejemplo 8.9, Y = 503.75; entonces, mediante el uso de (8.60) y (8.61), los 
Valores calculados de la media y la varianza a posteriori son 


(16119(503.75) + (500125) 


= 501.4634 
(16101) + 25 


E(M | x) 
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respectivamente. Dado que la densidad. a posteriori de M es N(SO1 4634, 10.6098 0. 5098), 
y ya que para y + 0.9, P(-.1.645 < Z < 1.645) = 0.9, en donde Z ~ N(0, 1), se 
sigue de (8.59) que un intervalo de cai 0.9 para u que sea simétrico con 
respecto a la media a posteriori es - 


E(M |x) + 1.645 yai x) 


De esta forma los limites son a = E(M | x) — Lei yi |x) yb = EM | 
x) + 1.645VVar(M | x). Al sustituir los valores para E(M | x) y VVar(M| x), 
se obtiene el intervalo de probabilidad 0.9 (500.18, 502.75) para, p. De manera simi- 
lar, se calculan los intervalos bayesianos para y = 0.95 y y = 0.99. Éstos se en- 
cuentran resusniaos en la tabla 8.4. Nótese que los intervalos de probabilidad baye- 
sianos se estrechan de manera más uniforme que los correspondientes intervalos de 
confianza del ejemplo 8.9. 


e i A am Varmio = 


8.6 Límites estadísticos de tolerancia 


En la sección 5.4 se mencionaron los límites estadísticos de tolerancia y se comentó 
su importancia para estimar la variabilidad de un producto. En esta sección se de- 
sarrollarán límites estadísticos de tolerancia cuando se muestrea una distribución no 
específica de probabilidad, o cuando el muestreo se lleva a cabo sobre una distribu- 
ción normal. Estos límites se conocen como límites de tolerancia independientes de 
la distribución debido a que ésta no se especifica. 


8.6.1 Límites de tolerancia independientes de la distribución 


Imagine un fenómeno aleatorio que involucre la fabricación de un cierto producto. 
Sea X la variable de medición de este fenómeno, y sea f(x; 0) la función de densidad 
de probabilidad de X, en donde 0 es un parámetro fijo. 


Definición 8.10 Si Des la proporción de observaciones de la variable aleatoria que 
se encuentra entre los límites L, y £,, que son funciones univaluadas de las observa- 
ciones de manera tal que 


Lz 
D = T f(x; 0)dx = Fx(L>; 0) — Fx(L;; 0), — (8.62) 
entonces L, y L, reciben el nombre de límites estadísticos de tolerancia. 


TABLA 8.4 Intervalos de probabilidad bayesiana para el ejemplo 8.14 


Probabilidad Límite inferior Límite superior 
0.9 500.18 502.75 
0.95 499.93 502.99 
0.99 499.45 503.47 


8.6 Límites estadísticos de loleramicia 291 


son variables aleatorias. A su vez, la proporeión D, es una variable aleatoria, y Y, la. 
proposición de probabilidad EN , 


PD > d) = y 


tiene un significado que se interpreta como la probabilidad y de que la piepordós 
de valores en la distribución de X entre L, y L, no sea menor que d. NASA 

Sean Xp, Y Xín-,+1) el r-ésimo valor más pequeño y el (n —r + 1)ésimo valor 
más grande, respectivamente, en una muestra aleatoria de tamaño n la cual invo- 
lucra a la variable de medición X. Se ha demostrado que la proporción de valores D 
que se encuentran entre Li = Xe y Lz = Xq-,+1 tiene una distribución beta con 
parámetros œ = n — 2r + 1 y B = 2r, sin importar la forma de la función de 
densidad de probabilidad de X, en donde L, y L, son de orden simétrico. De esta 
forma 


PD > d) = 1 — Fald;n — 2r + 1,25) = y. (8.63) 


La expresión (8.63) es muy fuerte porque permite la determinación de límites 
estadísticos de tolerancia sin necesidad de especificar la distribución de la variable 
aleatoria X de interés. Estos límites se conocen como límites de tolerancia indepen- 
dientes de la distribución. Nótese que la relación (8.63) involucra cuatro cantidades, 
n, r, d y y. Con el uso de las tablas beta el conocimiento de tres de ellas proporciona- 
rá el valor de la cantidad faltante. 

El principal uso de (8.63) es determinar el tamaño más pequeño de la muestra de 

- manera tal que con una probabilidad y por lo menos una proporción d de la distri- 
bución de X se encuentre incluida entre los dos valores extremos de la muestra, Xn 
y Xim. Esto es, para r = 1, (8.63) se reduce a 


P(D=>d)=1-Fsd;n- 1,2) = y, 


la que puede simplificarse para obtener 
y = l — [nd"' — (n- Dd”), (8.64) 


lo que da como resultado una expresión en la que puede aparecer la función de 
distribución beta como una suma si uno de los parámetros de forma es un número 
entero pequeño (véase [1}). 

En la figura 8.2 se dan varias proporciones útiles de d en función del tamaño de 
la muestra n y la probabilidad y. Por ejemplo, si se obtiene una muestra de tamaño 
25 de una distribución con una función de densidad desconocida, la probabilidad de 
que por lo menos el 80% de los valores de X se encuentren entre los dos valores 
extremos de la muestra es de 0.973. 

Muchas veces se buscan límites de tolerancia unilaterales de manera tal que la pro- 
babilidad de que por lo menos una proporción d de la distribución de X sea más 
grande de un limite de tolerancia inferior o menor que un limite de tolerancia supe- 
rior, sea y. Puede demostrarse, sin importar la distribución de X, que 


PD>d)=1-Fídin=r+1,r)= y. (8.65) 
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d=0.5 d=06 “¿=0,7 d=0.75 


0.990 d =0.85 


J d=0.95 


FIGURA 8.2 Proporciones d como funciones del tamaño de muestra n y probabilidad y. 


Nótese que si r = 1, la inferencia se formulará con base en el valor más pequeño de 
la muestra, X,;,; sir = n, la inferencia se formulará con base en el valor más grande, 
Xin). Puede demostrarse que, para r = 1, la expresión (8.69) se reduce a 


PD>d)=1-d"=y-. 
De esta manera, al obtener el resultado para el tamaño de la muestra n, se tiene 


_ log — y) 


log(d) ii 


La expresión (8.66) permite la determinación del tamaño necesario de la muestra 
para que con una probabilidad y, por lo menos una proporción d de los valores de X 
sean más grandes que el valor más pequeño de la muestra. 
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8.6.2 Límites de tolerancia cuando se muestrea una distribución normal 


En algunas situaciones la distribución de interés puede modelarse en forma ade- 
cuada por una “distribución normal. En esta sección, se examinarán los límites 
estadísticos. de tolerancia para estas situaciones. 

Recuérdese que los límites estadísticos de tolerancia. colocan límites sobre las 
mediciones que se llevan a cabo sobre una distribución a diferencia de los intervalos 
de confianza, los cuales determinan a aquéllos donde es probable que se encuentre 
un parámetro desconocido. De esta forma, si el muestreo se lleva a cabo sobre una 
distribución N(1;0) de manera tal que tanto 4 como o son conocidos, entonces, por 
ejemplo, los límites 4 + 1.6450, y + 1.90, y 4 + 2.5750 incluirán al 90, 95 y 
99% de la distribución, respectivamente. O para los límites unilaterales, el 90% de 
las observaciones de la distribución excederá el límite inferior de y — 1.280, y el 
99% será menor del límite superior 4 + 2.330.El único problema, con toda seguri- 
dad, es que no es muy común el conocer los valores de la media y la varianza o”. 

Supóngase que se consideran los estimadores X y S?. Dado que ambos son 
variables aleatorias y están sujetas a la variabilidad en el muestreo no es verdad 
decir, por ejemplo, que el 90% de la distribución estará contenido en +l intervalo, 
X + 1.6455, En forma alternativa, considere el intervalo aleatorio X + kS, en 
donde k es una constante apropiada perteneciente a la distribución conjunta de X y 
S?. Dado que X + kS son límites aleatorios, es imposible establecer con absoluta 
certeza qué porcentaje de la distribución estará contenido entre estos límites. En 
otras palabras, al igual que con los intervalos de confianza, no es posible encontrar 
un valor de k tal que los límites calculados, con base en alguna muestra aleatoria, 
siempre incluyan un porcentaje fijo de la distribución. Sin embargo, es posible selec- 
cionar un valor de k tal que si se obtienen en forma repetida muestras del mismo ta- 
maño de una distribución normal, proporción fija y de estos limites contendrá 
por lo menos un 100d% de los valores de la distribución. Es decir, el intervalo alea- 
torio X + kS tiene una probabilidad y de contener por lo menos un 100d% de la 
distribución normal muestreada. Con base en una muestra aleatoria de tamaño n los 
límites de tolerancia bilateral de un 100y% para un porcentaje 100d de una distribu- 
ción normal son x + ks, en donde y es el coeficiente de confianza y d es el alcan- 
ce de la distribución. La tabla H contiene valores de k para valores seleccionados de 
n, Y, y d. 

Muchas veces sólo se tiene interés en los limites de tolerancia unilaterales. Por 
ejemplo, en la fabricación de pistones, si el diámetro se encuentra por debajo de 
cierta tolerancia, el pistón debe desecharse. Sin embargo, si el diametro del pistón es 
mayor que cierta tolerancia, éste puede ser reprocesado hasta alcanzar un nivel acep- 
table. Como era de esperarse, los valores de k para los límites unilaterales no son 
iguales a los que se encuentran en la tabla H. Éstos se hallan en la tabla I del apéndi- 
ce para los valores de n, y, y d más frecuentemente utilizados. De acuerdo con lo an- 
terior, puede determinarse un valor de k tal que, con una confiabilidad del 100y Yo 
de que por lo menos un 100d% de los valores de la distribución normal serán mayo- 
res que el límite de tolerancia inferior y — ks, o menores que el límite de tolerancia 
superior x + ks. 
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Ejemplo 8.15 En un medio muy competitivo, la disponibilidad de un producto con 
respecto a la demanda es crucial para el éxito del negocio. Para determinar un límite 
de tolerancia superior para la demanda mensual de cierto producto, un centro co- 
mercial ha recolectado lo que cree que es una muestra aleatoria de las demandas 
mensuales y la cual consiste en los siguientes datos: 129, 142, 145, 153, 136, 138, 
163, 151, 146, 128, 133, 148, 144, 140, 143. Si la demanda mensual de este producto 
se encuentra aproximada en forma adecuada por una distribución normal, determí- 
nese un límite de tolerancia superior con y = 0.99 y d = 0.95. 


=- Para y = 0.9, d = 0.95 y n = 15, se obtiene de la tabla I del apéndice un va- 
lor de k = 3.102. Con base en los datos, la media y la desviación estándar muestral 
tienen un valor de ¥ = 142.6 y s = 9.2798, respectivamente. El límite de tolerancia 
superior es 142.6 + (3.1021(9.2798) = 171.39. De esta forma, se tiene el 99% de 
confiabilidad, porque el 95% de toda la demanda será menor que 171.39 unidades 
por mes. En otras palabras, si este centro comercial almacena aproximadamente 172 
unidades del producto por mes, tendrá una alta seguridad de satisfacer la demanda 
mensual de este producto. 

De nuevo, debe hacerse énfasis en que los límites estadísticos de tolerancia de- 
sarrollados en esta sección se relacionan con el muestreo de una distribución normal. 
Si existe alguna duda con respecto a esta hipótesis, deberán utilizarse los límites de 
tolerancia independientes de la distribución que se estudiaron en la sección 8.6.1. Es 
razonable esperar que los límites de tolerancia independientes de la distribución sean 
más conservadores que aquéllos basados en la distribución normal, ya que se en- 
cuentra disponible una cantidad menor de información. 
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Ejercicios 
8.1. En un experimento binomial se observan x éxitos en n ensayos independientes. Se pro- 


ponen las siguientes dos estadísticas como estimadores del parámetro de proporción p: 
Ti = X/n y T, = (X + D/(n + 2). 


a) Obtener y comparar los errores cuadráticos medios para T, y T, 
b) Hacer una gráfica del ECM de cada estadística como funciones de p para n = 10 y 
n = 25. ¿Es alguno de estos estimadores uniformemente mejor que el otro? 


8.2. 


8.3. 
8.4. 


8.5. 


`. 8.6. 


8.7. 


8.8. 


8.9. 


8.10. 


8.11. 


8.12. 
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Sea :X,, X2, X,, y X, una muestra aleatoria de tamaño cuatro de una población cuya 
distribución es exponencial con parámetro 0 desconocido. De las siguientes a 
¿cuáles son estimadores mcrndos an 0? DPE 


SE casta y ESTAS arr E . Biz da ONE 


MEP pennan E ARY 


To + Xx) +: 306, + xy 


T; = (X,+2X, + x + 4xo/5 m 
T", = (X, + X, + X; + X,)/4 sé 


Demostrar que la estadística T,, en el ejercicio 8.1, es un estimador consistente del pa- 


_rámetro binomial p. 


Mediante el uso del teorema de Tchebysheff, demostrar que la estadística T,, en el ejer- 
cicio 8.1, es un estimador consistente del parámetro binomial p. 


De entre los estimadores insesgados de 0 dados en el ejercicio 8.2, determinar cuál es el 
que tiene la varianza más pequeña. ¿Cuáles son las eficiencias relativas de los demás es- 
timadores insesgados con respecto al que tiene la varianza más pequeña? 


Sea X,, X,, X,, A, y X, una muestra aleatoria de una población cuya distribución es 
normal con media yu y varianza o”. Considérense las estadísticas T, = (X, + X, + -> 
+ X3)/S y Ta = (X, + X, + 2X, + X, + X5)/6 como estimadores de 4. Identificar 
la estadística que posee la varianza más pequeña. 


Mediante el uso de la cota inferior de Cramér-Rao determinar la varianza del estimador 
insesgado de varianza mínima de 9 cuando se muestrea una población cuya distribución 
es exponencial con una densidad f(x; 9) = (1/0O)exp(—x/0), x > 0. Deducir que el 
estimador eficiente de 9 es la media muestral. 


Sea X,, X 2 »-»» X, una muestra aleatoria de una población cuya distribución es gama 
con parámetro de forma conocido. Demostrar que el estimador de máxima verosimili- 
tud para el parámetro de escala está dado por la expresión (8.8). 


Sea X,, X2, ..., Xa una muestra aleatoria de una población cuya distribución es de 
Poisson con parámetro A. Obtener el estimador de máxima verosimilitud de A. 


Sea X,, X2, ..., A, una muestra aleatoria de una población cuya distribución es expo- 
nencial con parámetro de escala 0. Obtener el estimador de máxima verosimilitud de 0 
y demostrar que éste es una estadística suficiente para 9. 


Sea Xi, X,, ..., X, una muestra aleatoria de una población cuya distribución es la de 
Rayleigh, con densidad f(x; ey = (x/0*)exp(— x/20*), x > 0. Obtener el estimador 
de máxima verosimilitud de g°. ¿Es ésta una estadística para o°? 


De manera equivalente a la definición 8.7, se define el r-ésimo momento muestral con 
respecto a la media, como 


en | donde Xi, X>,..., X, es una muestra aleatoria. Empléense estos momentos ÓN 
calcular los factores de forma muestrales para los datos dados en el ejercicio 1 
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8.13. 
8.14. 


8.15. 


8.16. 


8.17. 


8.18. 


Estimación puntual y por intervalo 


¿Puede formularse cualquier inferencia con ca ala A de interés con base 
en los factores de forma? . vaai i ; 


Repetir el ejercicio 8.12 usando los datos proporcionados en el ejercicio 1.2. 


La tabla 8.5 es una distribución de frecuencias para accidentes automovilísticos recaba- 
da para un estudio en California.* Asumiendo que el número de accidentes es una va- 
riable aleatoria binomial negativa, úsese el método de momentos para estimar los pará- 
metros binomiales negativos k y p. Comparar las frecuencias que se observaron con 
aquéllas que se obtienen mediante el empleo de los valores estimadores de k y de p. 


Los siguientes datos son una muestra aleatoria de duración en horas, que se observaron 
para un determinado componente eléctrico: 142.84, 97.04, 32.46, 69.14, 85.67, 114.43, 
41.76, 163.07, 108.22, 63.28. Supóngase que la duración de un componente es una 
variable aleatoria de Weibull con parámetro de forma a: = 2. 


a) Obtener un estimador de máxima verosimilitud para el parámetro de escala 6. 

b) El método de momentos, ¿daría un -timador de 6 diferente al que se obtuvo en la 
parte a? 

c) Mediante el uso de su respuesta al inciso a, estimar la confiabilidad de este compo- 
nente para £ = 150 horas. 


Mediante el uso de su respuesta al inciso a del ejercicio 8.15, obtener el tiempo para el 
cual la confiabilidad del componente es de 0.95. 


Los siguientes datos son tiempos de falla, ordenados en horas de diez componentes que 
fallarán de un total de 40 en una prueba de duración: 421, 436, 448, 474, 496, 499. 510, 
525, 593, 675. Supóngase que el tiempo de falla es una variable aleatoria exponencial- 
mente distribuida. 


a) Obtener un estimador de máxima verosimilitud para el parámetro 6. . 
b) Usese la respuesta de la parte a para estimar la confiabilidad de este componente 
para £ = 4 000 horas. 


Una prueba de duración será terminada cuando fallen m < n unidades. Si el tiempo de 
falla es una variable aleatoria de Weibull con parámetro de forma conocido, obtener el 
estimador de máxima verosimilitud para el parámetro de escala 0. 


*Multivariate analysis of driver accident frequencies over a period of 14 years, California Department 
of Motor Vehicles, FHWA Project No. B0149, 1975. 


TABLA 3.5 
Número de accidentes Número de conductores 
0 35,068 
1 13.411 
2 4.013 
3 1,184 
4 353 
5 93 
6 29 
7 8 
8 4 
9 o más 2 
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8.19. Se desea obtener un indicador del éxito financiero de ciertas tiendas que venden articu- 


los especiales en los centros comerciales de una gran ciudad. Se selecciona una muestra 


aleatoria de 30 tiendas ubicadas en distintos centros comerciales y en donde el interés re- 
cae en el tiempo que éstas permanecen en operación. Se tendrá un dato significativo 


` “cuando se observen las primeras ocho tiendas que dejen de funcionar, Los. siguientes da- 


8.20. 


tos son el tiempo en orden ascendente, de operación en meses: 3.2, 3.9, 5.9, 6.5, 16.5, 
20.3, 40.4, 50.9. Supóngase que el tiempo en el que permanece operando una tienda de 
esta clase es una variable aleatoria de Weibull con æ = 0.8. 


a) Usando el resultado del ejercicio 8.18, obtener el estimador de máxima verosimilitud 
para 9. 

b) Con base en la respuesta del inciso a, ¿cuál es la probabilidad de que una tienda per- 
manezca en operación después de haber transcurrido dos años de su apertura? ¿Des- 
pués de diez años? 


El tiempo total de procesamiento para programas en tarjetas perforadas de computado- 
ra se define como el tiempo que transcurre desde que se lee la primera tarjeta hasta que 
se imprime la última línea, y está constituido por tres componentes; el tiempo d+ espera 
de entrada, el tiempo utilizado por el procesador central y el tiempo de espera de salida. 


~ Los siguientes datos son los tiempos totales de procesamiento, en minutos, para una 


muestra aleatoria de 15 programas similares: 12.5, 5.2, 6.8, 3.6, 10.9, 12.8, 7.8, 8.6, 6.3, 
6.9, 18.2, 15,4, 9.2, 10.3, 7.3. Supóngase que el tiempo total de procesamiento está mo- 
delado, en forma adecuada, por una distribución gama con a = 3. 


-.. a) Obtener el estimador de máxima verosimilitud para el parámetro de escala 0. 


8.21. 


8.22. 


8.23, 


b) El método de momentos, ¿daria un estimado diferente de 6 al determinado en el in- 
ciso a? 


c) Mediante la respuesta del inciso a), calcular la probabilidad de que el tiempo de pro- 


cesamiento sea mayor a 20 minutos. 


Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de una 
fibra. Diseña un experimento en el que se observan las tensiones de ruptura, en libras, 
de 16 hilos del proceso seleccionados aleatoriamente. Las tensiones son 20.8, 20.6, 21.0, 
20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 20,3 y 20.7. Supóngase 
que la tensión de ruptura de una fibra se encuentra modelada por una distribución nor- 
mal con desviación estándar de 0.45 libras. Construir un intervalo de confianza estima- 
do del 98% para el valor real de la tensión de ruptura promedio de la fibra. 


Con referencia al ejercicio 8.21, ¿cuáles de las siguientes proposiciones son apropiadas 
papra la interpretación del intervalo de confianza? 


a) En la probabilidad de que la tensión promedio verdadera se encuentre, los límites de 
confianza son de 0.98. 

b) Aproximadamente el 98%, de todos los intervalos de confianza calculados con base 
en repetidas muestras de tamaño, 16 obtenidas en el proceso de fabricación de las 
fibras incluirán el verdadero valor promedio de la tensión de ruptura. 

c) La probabilidad de que la tensión de ruptura para cualquier fibra se encuentre fuera 
de los límites de confianza es 0.02. 


Mediante el empleo de los métodos de la sección 5.9, genere 100 muestras, cada una de 
tamaño 16, de una distribución normal con media 100 y desviación estándar 10. Para 
cada muestra, constrúyase un intervalo de confianza del 95% para u. ¿Cuántos de estos 
intervalos contienen el verdadero valor de 100 parau? Véase el ejercicio 8.36. 


E 
Y 
EN 
se 
i 
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8.24. 


Una tienda de donas se interesa en estimar su volumen de ventas diarias. Supóngase que 
el valor de la desviación estándar es de $50. i : ` 


a). Si el volumen de ventas sé encuentra aproximado por una distribución normal, ¿Cuál 
debe ser el tamaño de la muestra para que con una probabilidad de 0.95 la me- 
dia muestral se encuentre a no más de $20 del verdadero volumen de ventas prome- 

dio? y 


S b) Si no es posible suponer que la distribución es normal, obtener el tamaño necesario 


8.25. 


8.26. 


8.27. 


8.28. 


8.29. 


8.30. 


8.31. 


de la muestra para la pregunta a. 


Con referencia al ejercicio 8.24, generar 100 muestras, cada una de tamaño igual al de- 
terminado en el inciso a, de una distribución normal con media y desviación estándar 
iguales a 400 y $0, respectivamente. Calcular la media muestral para cada muestra. 
¿Cuántas medias muestrales se encuentran a no más de $20 del valor conocido de u? 
¿Está su respuesta de acuerdo con lo que se esperaba? 


Se piensa que la diferencia entre el sueldo más bajo y el más alto que se paga por hora a 
los mecánicos de automóviles es de $9. Si se supone que estos sueldos se encuentran, en 
forma aproximada, distribuidos según un modelo normal, ¿cuál debe ser el tamaño de 
la muestra para que con una probabilidad de 0.99 la media muestral se encuentre a no 
más de un dólar del verdadero salario por hora promedio? Contéstese la misma pregun- 
ta sin suponer una distribución normal. . 


La Cámara de Comercio de una ciudad se encuentra interesada en estimar la cantidad 
promedio de dinero que gasta la gente que asiste a convenciones, calculando comidas, 
alojamiento y entretenimiento por día. De las distintas convenciones que se llevan a 
cabo en la ciudad, se seleccionaron 60 personas y se les preguntó la cantidad que gasta- 
ban por día. Se obtuvo la siguiente información en dólares: 150, 175, 163, 148, 142, 189, 
135, 174, 168, 152, 158, 184, 134, 146, 155, 163. Si se supone que la cantidad de dinero 
gastada en un día es una variable aleatoria distribuida normal, obtener los intervalos de 
confianza estimados del 90, 95 y 98% para la cantidad promedio real. 


Con referencia al ejercicio 8.21, determinar el intervalo de confianza estimado del 98% 
para la tensión de ruptura promedio sin suponer que se conoce la desviación estándar de 
la población. ¿Cómo es este intervalo comparado con el que se obtuvo en el ejercicio 
8.21? 


Para verificar la sensititividad de la distribución £ de Student con respecto a la suposi- 
ción de que se muestrea una distribución normal, generar 100 muestras aleatorias cada 
una de tamaño 10 de una distribución exponencial con $ = 20. Para cada muestra, 
construir un intervalo de confianza estimado del 95% para la media. ¿Cuántos de estos 
intervalos contienen el valor medio conocido de 8 = 20? Repetir el proceso incremen- 
tando el tamaño de la muestra a 30. ¿Existe alguna diferencia? Formular un comentario 
con respecto a sus resultados. Véase el ejercicio 8.37. 


Una muestra aleatoria de los salarios por hora para nueve mecánicos de automóviles 
proporcionó los siguientes datos (en dólares): 10.5, 11, 9.5, 12, 10, 11.5, 13, 9, 8.5. Bajo 
la suposición de que el muestreo se llevó a cabo sobre una población distribuida normal, 
construir los intervalos de confianza estimados del 90, 95 y 99% para los salarios por 
hora promedio para todos los mecánicos. Interpretar los resultados. 


Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir a 
sus alumnos a principios de cada semestre. Las dos desean comparar el tiempo prome- 
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dió que les toma a los estudiantes completar el trámite de inscripción, En cada universi- 


- dad se anotaron los tiempos de inscripción para 100 alumnos seleccionados al azar. Las 


8.32. 


8.33. 


8.34. 


medias y las desviaciones estándares muestrales son las siguientes: - 


EA Y) pd F 9 O = 50.2 >- Xx = 52.9 
Se, E i s= 4.8 8 = 5.4 


Si se supone que el muestreo se llevó a cabo sobre dos poblaciones distribuidas normales 
e independientes, obtener los intervalos de confianza estimados del 90, 95 y 99% para la 
diferencia entre las medias del tiempo de inscripción para las dos universidades. Con 
base en esta evidencia, ¿se estaría inclinando a concluir que existe una diferencia real 
entre los tiempos medios para cada universidad? 


Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un 
nuevo proceso en el que se añade una aleación a la producción del metal. Los fabrican- 
tes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de 
ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 
12 especimenes y cada uno de éstos se somete a una tensión hasta que se rompe. La si- 
guiente tabla muestra las tensiones de ruptura de los especímenes en kilogramos por 
centímetro cuadrado: 


Proceso 
estándar 


428 419 458 439 441 456 463 429 438 445 44l 463 


Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e inde- 
pendientes con varianzas iguales, obtener los intervalos de confianza estimados del 90, 
95 y 99% para us — un. Con base en los resultados, ¿se estaría inclinado a concluir 
que existe una diferencia real entre us y My? 


En dos ciudades se llevó a cabo una encuesta sobre el costo de la vida para obtener el 
gasto promedio en alimentación en familias constituidas por cuatro personas. De cada 
ciudad se seleccionó aleatoriamente una muestra de 20 familias y se observaron sus gas- 
tos semanales en alimentación. Las medias y las desviaciones estándares muestrales 
fueron las siguientes: 


A =135 5 


122 
l K = 15 Sy = 10 


Si se supone que se muestrearon dos poblaciones independientes con distribución nor- 
mal cada una, y varianzas iguales, obtener los intervalos de confianza estimados del 95 
y 99% para u, — m. Se estaría inclinado a concluir que existe una diferencia real entre 


py pa? 


Se espera tener una cierta variación aleatoria nominal en el espesor de las láminas de 
plástico que una máquina produce. Para determinar cuándo la variación en el espesor se 
encuentra dentro de ciertos límites, cada día se seleccionan en forma aleatoria 12 lámi- 
nas de plástico y se mide en milimetros su espesor. Los datos que se obtuvieron son los 
siguientes: 12.6, 11.9, 12.3, 12.8, 11.8, 11.7, 12.4, 12.1, 12.3, 12.0, 12.5, 12.9. Si se su- 
pone que el espesor es una variable aleatoria distribuida normal, obtener los intervalos 
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de confianza estimados del 90, 95. y 99% para la varianza desconocida del espesor. Si no 
es aceptable una varianza mayor de 0.9 mm, ¿existe alguna razón para preocuparse con 
base en esta evidencia?. ; roa o : i 


8.35. Mediante el uso de los datos dele ejercicio 8.27, obtener un intervalo de confianza esti- 
mado del 95% para la varianza desconocida e interpretar el resultado. 


8.36. Con referencia al ejercicio 8.23, construir para cada muestra un intervalo de confianza 
-- del 95% para o”. ¿Cuántos de estos intervalos contienen el valor conocido de 100 para 
o??¿Este resultado está de acuerdo con lo que se esperaba? 


8.37. Para verificar la sensitividad de la distribución chi-cuadrada con respecto a la suposi- 
ción de que se muestrea una distribución normal, repetir el ejercicio 8.29 construyendo 
para cada muestra un intervalo de confianza estimado del 95% para o”. En relación con 
los dos tamaños de las muestras, ¿cuántos de estos intervalos contienen el valor conoci- 
do de a? = 400? Con base en estos resultados, comparar las sensitividades de las distri- 
buciones / de Student y chi-cuadrada con respecto a la hipótesis de un muestreo que se 
lleva a cabo sobre una distribución normal. 


8.38. Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la cría de 
peces con fines comerciales. Esta agencia se encuentra interesada en comparar la va- 
riación de cierta sustancia tóxica en dos estuarios cuyas aguas se encuentran contamina- 
das por desperdicios industriales provenientes de una zona industrial cercana. En el pri- 
mer estuario se seleccionan 11 muestras y en el segundo 8, las cuales se enviaron a un 
laboratorio para su análisis. Las mediciones en ppm que se observaron en cada muestra 
se exponen en la tabla 8.6. Si se supone que el muestreo se hizo sobre dos poblaciones 
independientes distribuidas normales, obtener un intervalo de confianza estimado del 
95% para el cociente de las dos varianzas no conocidas a*/03. Con base en este resulta- 
do, ¿se podría concluir que las dos varianzas son diferentes? ¿Por qué? 


8.39. Con referencia al ejercicio 8.32, construir un intervalo de confianza estimado del 99% 
para el cociente 07/0%, en donde o} es la varianza del proceso estándar y a es la va- 
rianza del nuevo proceso. Con base en este resultado, ¿es razonable la suposición de que 
las varianzas son iguales? 


8.40. La lista electoral final en una elección reciente para senador, reveló que 1 400 personas 


TABLA 3.6 Niveles de una sustancia tóxica 


(ppm) 
Estuario 1 Estuario 2 

10 Ll 

10 8 

12 9 

13 7 
9 10 
8 8 

12 8 

12 10 
10 

l4 


8.41. 
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+ de un total de:2 500 seleccionadas cis tienen pecterendia por a candidato A 
v com respecto al candidato B. paet 


v siin“; 


a) Obtener un intervalo de dihan unilateral inferior del 99% para la a Verdadera pro- 
porción de votantes a favor del candidato A. Con base en este resultado, ¿podría us- 
ted afirmar que es probable que A gane la elección? ¿Por qué? ; 

b) Supóngase que se selecciona aleatoriamente una muestra de 225 personas con la mis- 
ma proporción muestral a favor del candidato A. ¿Son los resultados diferentes alos 
del inciso a)? 

c) En este caso, ¿son razonables las suposiciones para los intervalos de confianza apro- 
ximados del 99%? - 


Se recibe un lote muy grande de artículos proveniente de un fabricante que asegura que 
el porcentaje de artículos defectuosos en la producción es del 1%. Al seleccionar una 
muestra aleatoria de 200 artículos y después de inspeccionarlos, se descubren 8 defec- 
tuosos. Obtener los intervalos de confianza aproximados del 90, 95 y 99% para la verda- 
dera proporción de'artículos defectuosos en el proceso de manufactura del fabricante. 
Con base en estos resultados; ¿quí se puede concluir con respecto a la afirmación del 


fabricante? 


8.42. Un “médico investigador desea estimar la proporción de hombres, en edad madura, que 


8.43. 


8.44, 


fuman en exceso y que desarrollarán cáncer pulmonar en los siguientes cinco años. El 
investigador desea seleccionar una cierta cantidad de hombres que hayan fumado por lo 
menos dos cajetillas de cigarros al día durante 20 años y observarlos durante los próxi- 
mos cinco años para saber cuántos desarrollan cáncer pulmonar. ¿Cuál debe ser el ta- 
maño de la muestra que el investigador debe seleccionar de manera tal que con una pro- 
babilidad de 0.95, la proporción muestral se encuentre a no más de 0.02 unidades de la 
proporción verdadera? 


Las compañías de auditoría generalmente seleccionan una muestra aleatoria de los clien- 
tes de un banco y verifican los balances contables reportados por el banco. Si una 
compañía de este tipo se encuentra interesada en estimar la proporción de cuentas para 
las cuales existe una discrepancia entre el cliente y el banco, ¿cuántas cuentas deberán 
seleccionarse de manera tal que con una confiabilidad del 99% la proporción muestral 
se encuentre a no más de 0.02 unidades de la proporción real? 


El volumen semanal de ventas de una tienda de descuentos se encuentra representado, 
en forma adecuada, por una distribución normal con media desconocida u, pero con 
una desviación estándar de o = $2 000. Debido a muchas influencias de índole menor, 
se cree que el volumen de ventas semanal promedio puede considerarse como una va- 
riable aleatoria. Supóngase que se está pensando asignar una distribución normal a la 
media semanal con pa = $20 000 y sa = $200. Una muestra aleatoria de 16 semanas 
revela un volumen de ventas promedio muestral de $21 500. 


a) Para una función de pérdida de error cuadrático, obtener el estimador Bayes de p- 

b) Obtener un intervalo estimado de probabilidad bayesiano del 95% para u. 

c) Obtener un intervalo de confianza del 95% para u y compararlo con el intervalo esti- 
mado en el inciso b). 

d) Repetir los incisos a, b y c con gẹ = 100. Comentar los resultados. 

e) Repetir los incisos a, b y c con a, = 800. Comentar los resultados. 

J) Supóngase que n = 64; asumiendo que x = 21 500, ¿de qué forma afectarían los 
cambios anteriores las respuestas dadas para los incisos a, b y c? 


8.45. 


Estimación puntual y por intervalo 


Una oficina estatal determinó que el número de llamadas telefónicas que recibe es una 
variable aleatoria de Poisson. Debido a las condiciones del' mercado, la oficina ha lie- 
gado a la conclusión de que el parámetro de Poisson es una variable aleatoria con distri- 


` bución. gama y parámetros de forma y éscala iguales ; a 207 4, "respectivamente, En un 


8.46. 


8.47. 


8.48. 


8.49. 


8.50. 


8.51. 


' día; seleccionado al azar, se reciben 90 llamadas telefónicas. ` ] 


a) Para una función de pérdida de error cuadrático, obtener el estimador Bayes del pa- 
rámetro de Poisson. 

b) Obtener un intervalo de probabilidad bayesian del 95%. . (Sugerencia: copii 
(5.51).) j 


Una compañía constructora de hoteles se encuentra muy interesada en las tensiones.de 
ruptura de los cables de acero que sostendrán un pasillo por encima del vestíbulo del ho- 
tel, El contratista hace uso de los servicios de una organización independiente a la cual 
da les instrucciones necesarias para probar los cables y determinar un límite de toleran- 
cia inferior para la tensión de ruptura de éstos de manera tal que, con una probabilidad 
de 0.95, el 99% de los cables tenga una tensión de ruptura 1.ayor al límite deseado. La 
organización selecciona, en forma aleatoria, 20 cables y los prueba para determinar sus 
tensiones de ruptura. Los resultados de la prueba, en kilogramos por centímetro 
cuadrado, son 2130, 2158, 2192, 2110, 2145, 2208, 2201, 2195, 2125, 2148, 2166, 2172, 
2192, 2138, 2210, 2215, 2108, 2105,'2120 y 2130. Si se supone que la tensión de ruptura 
es una variable aleatoria distribuida normal, obtener el límite de tolerancia deseado. 


El diámetro interno de un cojinete es una medida crucial en la fabricación de éste. Con 
base en una muestra aleatoria de 25 cojinetes, la media muestral fue de 3 cm y la des- 
viación estándar muestral fue igual a 0.005 cm. Obtener los límites de tolerancia bilate- 
rales de manera tal que, con una probabilidad de 0.99, el 95% de los diámetros de todos 
los cojinetes manufacturados por este proceso se encuentren dentro de los límites de tole- 
rancia. Supóngase que el diámetro interno es una variable aleatoria distribuida normal. 


Supóngase que en el ejercicio 8.47 no es posible asumir una distribución normal. Si de 
los 25 cojinetes, el diámetro más pequeño fue de 2.984 y el más grande de 3.013 y se está 
interesado en un intervalo que contenga al 90, 95 o 99% de todos los diámetros internos, 
¿cuál es la probabilidad que puede asociarse con el intervalo de 2.984 al 3.013 para cada 
uno de los porcentajes anteriores? 


Supóngase que no es posible asumir una distribución normal en el ejercicio 8.46. Para la 
misma probabilidad y tamaño muestral, ¿cuál debe ser la proporción de tensiones de 
ruptura que debe exceder el valor más pequeño de las 20 observaciones? ¿Qué tan gran- 
de debe ser la muestra necesaria en este caso para tener la misma probabilidad y propor- 
ción del ejercicio 8.46? 


Supóngase que se está muestreando una población cuya distribución de probabilidad es 
desconocida. ¿Cuál debe ser el tamaño de la muestra necesario para que, con una pro- 
babilidad de 0.99, por lo menos el 95% de los valores de la variable aleatoria de interés 
esté incluido entre los dos valores extremos de la muestra? 


Supóngase que se está muestreando una población cuya distribución de probabilidad es 
desconocida. ¿Cuál debe ser el tamaño de la muestra necesario para que, con una pro- 
babilidad de 0.99, por lo menos el 97% de los valores de la variable aleatoria sea mayor 
que el valor más pequeño de la muestra? 


CAPÍTULO NUEVE o 


r3 


Prueba de hipótesis estadísti 


9.1 Introducción 


En el capítulo 8 se examinó la inferencia estadística con respecto a la estimación 
puntual y por intervalo. En este capítulo se estudiará otra área de la inferencia: la 
prueba o contraste de una hipótesis estadística. Como se verá, la prueba de una hi- 
pótesis estadística tiene una fuerte relación con el concepto de estimación. 

Una hipótesis estadística es una afirmación con respecto a alguna característica 
desconocida de una población de interés. La esencia de probar una hipótesis estadís- 
tica es el decidir si la afirmación se encuentra apoyada por la evidencia experimental 
que se obtiene a través de una muestra aleatoria. En forma general, la afirmación in- 
valucra ya sea a algún parámetro o a alguna forma funcional no conocida de la 
distribución de interés a partir de la cual se obtiene una muestra aleatoria. La deci- 
sión acerca de si los datos muestrales apoyan estadísticamente la afirmación se toma 
con base en la probabilidad, y, si ésta es mínima, entonces será rechazada. 

En gran medida, el enfoque de este capítulo será más intuitivo que teórico ya 
que el autor piensa que desde este punto de vista el lector estará en posición de obte- 
ner una mejor idea de la esencia de las hipótesis estadisticas. En forma inicial se de- 
sarrollarán los fundamentos para la prueba de hipótesis estadísticas. Entonces se 
examinarán varias áreas de aplicación con respecto a medidas, varianzas y propor- 
ciones. 


9.2 Conceptos básicos para la prueba de hipótesis estadísticas 


Para ilustrar la noción de una hipótesis estadística, supóngase que se tiene interés en 
el tiempo promedio necesario para terminar una unidad en una línea de armado. 
Bajo condiciones de operación estándares, el objetivo es tener un tiempo promedio 
de armado por unidad de 10 minutos. El gerente de la planta decide continuar con el 
Proceso a menos que se encuentre una evidencia sustancial de que el tiempo prome- 
dio no es de 10 minutos. La evidencia estará en una muestra aleatoria de tamaño 7 
obtenida de la distribución de interés para el tiempo de armado de una unidad. 
¿Cómo debe decidirse si el proceso continúa en operación?- 
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La respuesta a este tipo de preguntas es el principal objetivo del presente 
capítulo. Nótese que no es de interés, per se, la estimación del tiempo medio desco- 


nocido y, sino determinar si el valor de pes 10. En otras palabras, antes de que la” 
muestra se obtenga, ya se ha conjeturado que el muestreo se llevará a cabo sobre una 


distribución cuya media es 10. Si la afirmación es estadísticamente plausible con 
base en la evidencia experimental, entonces se asumirá que el valor promedio objetivo 
es de 10 minutos y, por lo tanto, se dejará que el proceso continúe. Por otro lado, si 
la afirmación no está apoyada estadísticamente por la evidencia muestral, el gerente 
de la planta puede decidir detener el proceso para llevar a cabo los ajustes necesarios. 

A la afirmación de que u = 10 se le llama hipótesis nula y se escribirá como: 


Ho: u = 10. 


Nótese que con H, se ha especificado un solo valor para el parámetro en cuestión. 
De hecho, si una hipótesis estadística asigna valores particulares a todos los pará- 
metros desconocidos e identifica la forma funcional de la distribución de interés, 
recibe el nombre de hipótesis sencilla o simple. De otra forma, se conoce como 
hipótesis compuesta. De esta manera, Ho: u = 1U es una hipótesis sencilla sólo si se 
especificaron la forma funcional de la distribución de interés y los valores de los pa- 
rámetros desconocidos (si es que los hay). Si la hipótesis nula se hubiese propuesto 
como H.: u < 10 o Hp: p => 10, ésta no sería una hipótesis simple ya que no asig- 
na ningún valor específico para p. 

Una hipótesis nula debe considerse como verdadera a menos que exista suficiente 
evidencia en contra. En otras palabras, se rechazará la hipótesis nula de que el tiem- 
po promedio de armado es de 10 minutos, sólo si la evidencia experimental se en- 
cuentra muy en contra de esta afirmación. Un paralelo muy cercano a esta interpre- 
tación es el de los procesos judiciales en los que el acusado es inocente hasta que no 
se demuestre lo contrario. Esto es, definiendo a la hipótesis nula como ““inocen- 
te”, se insiste en que se rechazará sólo si el juicio proporciona evidencia suficiente en 
contra de ésta. 

A continuación se analizan las posibles decisiones que pueden tomarse con res- 
pecto a la hipótesis nula Ho: u = 10. Al hacer esto deben tomarse en cuenta las con- 
secuencias que pueden originarse como resultado del verdadero estado de la natura- 
leza: en realidad 4, puede o no ser igual a 10. En forma sencilla, existen dos posibles 
decisiones con respecto a He (rechazar H,o equivocarse al rechazar H,).* Sin èm- 
bargo, cada una de estas decisiones tiene las siguientes dos consecuencias con respec- 
to al estado de la naturaleza: . 


cuando de hecho Ho es cierta Equivocarse cuando de hecho Žo es cierta 
Rechazar Ho al rechazar Ho 
cuando de hecho Ho es falsa cuando de hecho Hg es falsa 


Si la decisión es el rechazar a H,, entonces puede que se rechace algo que 
es cierto (decisión incorrecta) o que se rechace algo que en realidad es falso (decisión 


* La razón de por qué se ha usado la frase ““equivocarse al rechazar H,'* más que “aceptar H, será 


cvidente más adelante. - 
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correcta). Si no se puede rechazar Ho, entonces no puede rechazarse algo que es cier- 
to (decisión correcta), o no puede rechazarse algo que en realidad es falso (decisión 
incorrecta). Por lo tanto, si la decisión es rechazar o equivocarse al rechazar Hy 
existen dos posibilidades de tomáft una decisión equivocada cón respecto 'al verdade: 
ro estado de la naturaleza.**- +? n mit atriaipardog ads OR og 

Cuando se toma una decisión € con respecto a una hipótesis nula, dos de las po- 
sibles consecuencias relativas al verdadero estado de la naturaleza conducen a erro- 
res inferenciales. El rechazo de la hipótesis H,*cuando en realidad H, es cierta, 
constituye lo que se denomina error de tipo I. Equivocarse al rechazar H, cuando 
en realidad HA, es falsa, constituye lo que se denomina error de tipo II. El lector 
debe notar que sólo es posible el error de tipo I cuando la decisión es el rechazar la 
hipótesis nula, mientras que el error de tipo II sólo es posible cuando la decisión es el 
no rechazar Ho. En otras palabras, si la hipótesis nula realmente es cierta, sólo 
puede cometerse un error de tipo I; si la hipótesis nula es falsa, sólo puede cometerse 
un error de tipo 11. No pueden cometerse ambos errores en forma simultánea. De 
manera obvia, el interés recae en la posiblidad de cometer un tipo, cualquiera, de 
error. Sin embargo, es importante comprender que una decisión con respecto a una 
hipótesis estadística es un proceso inferencial, el cual siempre se encuentra sujeto a 
error. La decisión de rechazar H, no necesariamente significa que H, sea falsa; 
pero la evidencia muestral con base en la cual se toma la decisión proporciona un 
grado de confiabilidad (paralelo al de la estimación de intervalo) con el que puede 
procederse como si H, fuese falsa. 

Es necesario tener alguna cantidad que mida la posibilidad de cometer alguno de 
estos errores. Esta medida es una probabilidad. 


Definición 9.1 La probabilidad de rechazar Ho, dado que H, es cierta, se define 
como la probabilidad (o tamaño) del error de tipo I y se denota por a, 0 <a = 1. 


Definición 9.2 La probabilidad de no rechazar H,, dado que He es falsa, se define 
como la probabilidad (o tamaño) del error de tipo II y se denota por g8, 0 <8 =< 1. 


Por lo tanto, las probabilidades de los errores de tipo I y tipo II están dadas por 
las proposiciones 


Pírechazar H, | Ho es cierta) = a (9.1) 


P(no poder rechazar Ho | Ho es falsa) = $B. (9.2) 


Nótese que tanto œ como $ son probabilidades condicionales. No pueden obte- 
nerse las probabilidades de los errores de tipo I y tipo II en un sentido absoluto, de- 
bido a que el estado de la naturaleza no es conocido. Más bien, puede calcularse la 
probabilidad a de rechazar Ho sólo si se asume que Ho es cierta, o la probabilidad 8 
de equivocarse el rechazar Ho, si se asume que AH, es falsa. 

Cuando una afirmación se incorpora en la proposición de la hipótesis nula, se ne- 
cesita una regla que indique qué decisión tomar con respecto a Ho una vez que se en- 
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cuentra disponible la evidencia muestral. Esta TEA recibe el hombre de prueba de 
una. hipótesis, estadistica y qa -qE LN, sis, mii e 
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Definición 9. 3 “Una pruebo. der una ia hipótesis Estadistion è con ro a alguna ca- 
racterística desconocida de la población de interés es cualquier regla para'decidir si 
se. rechaza la hipótesis nula con base en una muestra alestoria de la población. 


-La decisión se basit en i algia dica apropiada la aal recibe el nombre de 
estadística de prueba. Para ciertos valores de la estadística de prueba, la decisión 
será el rechazar la hipótesis nula. Estos valores constituyen lo que se conoce como la 
región crítica de la prueba. Por ejemplo, recuérdese la hipótesis nula Ho: u = 10. 
Para un tamaño n dado de la muestra, supóngase que se decide rechazar H, si se ob- 
serva un valor de la media muestral X que sea más grande que 12. Entonces, X es 
la estadística de prueba, el valor X = 12 esel valor crítico, y el conjunto de valores 
mayores que 12 -onctituyen la región crítica de la prueba. 

Para mostrar en forma gráfica la región crítica, supóngase que n es suficiente- 
mente grande de manera tal que la distribución de muestreo de la estadística de 
prueba X, dado que HH, es cierta, es esencialmente una distribución normal. La fi- 
gura 9.1 muestra la región crítica como el área sombreada a la derecha del valor 
crítico Y = 12.El área de la región crítica es igual al tamaño del error de tipo I. En 
otras palabras, P(X > 12]u-= 10) = æ. La interpretación de a es análoga a la de 
los intervalos de confianza. Esto es, la probabilidad «a: es sólo una referencia con respecto 
a la región X > 12 involucrando a la variable aleatoria X, dado que u = 10. 
Pero la decisión de rechazar Ho se tomará con base en una sola muestra de tamaño 
n, a partir de la cual se calculará el estimador de X. De esta forma, si x > 12, 
esto no significa que la probabilidad de que Ho sea correcta es œ; más bien, esto 
implica una interpretación de frecuencia para « cuando se toman muchas muestras. 
En otras palabras, si el valor de yu es realmente 10, y si se tomasen en forma repetida 
muestras de tamaño n de la población, debe esperarse que en un 100a% de las veces, 
se encuentre un valor de la estadística de prueba X mayor que 12, y de esta forma debe 


Función de densidad de X bajo Hp 


f(x) 


Región crítica de 
tamaño a 


FIGURA 9.1 La región crítica como un área 
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rechazarse la hipótesis nula. Sólo en este sentido puede decirse que la confiabilidad 
al rechazar H, cuando el estimador X > 1 es igual al rpm: ae errora: «de tipo 
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Para. consti una regla de decisión apropiada en la prion den una hipótesis. 
estadística, también es necesario' establecer una hipótesis alternativa que refleje»el; 
valor posible a intervalo de valores del parámetro de interés si la hipótesis nula es. 
falsa. Esto es, la hipótesis alternativa representa alguna forma de negación de la hi-: 
pótesis nula. Generalmente la hipótesis alternativa se representa por H, y puede ser 
simple o compuesta. A pesar de que no se pretende una generalización, en muchas 
ocasiones es deseable establecer una hipótesis nula que sea más específica que la al-. 
ternativa. De esta manera, la hipótesis nula es simple en forma general, mientras que 
la alternativa es una hipótesis compuesta. Por ejemplo, supóngase que el gerente 
de la planta sospecha que el tiempo de armado promedio es mayor de 10 minutos. 
Entonces las hipótesis nula y alternativa apropiadas podrían ser ` 


Hy: H= 10, 
H: p > 10. 


La razón de ello es que si la evidencia muestral no apoya el rechazo de la hipótesis 
nula, entonces el gerente de la planta podría proceder como si A, fuese cierta. De otra 
manera, la sospecha podría justificarse y entonces puede ser necesario emprender al- 
guna acción para corregir la falla. 

.. De acuerdo con la definición 9.3, el procedimiento de prueba se construye de ma- 
nera tal que la hipótesis nula sea o no rechazada. En este sentido, se dice que H, es 
la hipótesis a ser probada. Sin embargo, con la inclusión de la hipótesis alternativa, 
puede ser más descriptivo decir que probar una hipótesis estadística es proporcionar 
una decisión entre H, y H,. Por ello debe ejercerse una precaución extrema al es- 
tablecer las hipótesis nula y alternativa. 

Se regresará a la analogía del proceso judicial para proporcionar una idea más 
clara sobre la materia. Si la hipótesis nula es ““inocente””, entonces, con toda seguri- 
dad, la hipótesis alternativa es “*culpable”. El rechazo de la hipótesis nula implicaría 
que el juicio ha sido capaz de proporcionar suficiente evidencia para garantizar un 
veredicto de culpable. Por otro lado, si el juicio no presenta evidencia sustancial, el ve- 
redicto será inocente. Esta decisión no implica necesariamente que el acusado seá 
inocente, más bien hace énfasis en la falta de evidencia sustancial necesaria para 
condenar al acusado. Por lo tanto, en cierto sentido un veredicto de culpable (el 
rechazo de H) debe considerarse como una decisión más fuerte que un veredicto 
de inocente (equivocación al rechazar Ho), lo cual surge del principio judicial general- 
mente aceptado de que es peor condenar a una persona inocente que dejar ir a una 
culpable. Si el veredicto es culpable, se desea tener un grado muy alto de seguridad 
de que no se va a condenar a una persona inocente. Por lo tanto, en muchas si- 
tuaciones el error de tipo I se considera como un error mucho más grave que el error 
de tipo II. 

En la prueba de hipótesis estadísticas el enfoque general es aceptar la premisa 
de que el error de tipo I es mucho más serio que el error de tipo II, y formular las hi- 
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pótesis nula y alternativa de acuerdo con lo anterior. Como resultado se tiene que 
muchas veces se selecciona con anticipación el tamaño máximo del error de tipo I 
que puede tolerarse y se intenta construir un procedimiento de prueba que minimice 
el tamaño del error de tipo- IE En otras palabras, no es posible fijar tanto a «como a 
B y diseñar alguna regla de decisión para probar Ho contra H, , dada: una: muestra 
aleatoria de tamaño n. Es por esta razón que se dice ““equivocación al rechazar Hp” 
más que “aceptar H,” cuando la evidencia muestral no apoya el rechazo de la hipó- 
tesis nula. - `= . 
. Un principio sencillo y razonable al obtener reglas de decisión para la prueba de 
hipótesis estadísticas es seleccionar aquel procedimiento de prueba que tenga el ta- 
maño más pequeño para el error de tipo II entre todos los procedimientos que ten- 
gan el mismo tamaño para el error de tipo I. En este contexto debe notarse que el va- 
lor de a no puede hacerse muy pequeño sin que se incremente el valor de 8. En otras 
palabras, para una muestra de tamaño n dado, el tamaño del error de tipo II nor- 
malmente aumentará conforme el tamaño del error de tipo I disminuya. Lo qve, en 
forma general, se hace en la práctica, es ajustar el tamaño del error de tipo 1 cambiando 
el valor crítico de la estadística de prueba para así alcanzar un balance satisfactorio entre 
los tamaños de los dos errores. Sin embargo, cuando se hace esto debe tenerse en mente 


el máximo tamaño del error de tipo I que puede tolerarse en una situación en particular. ' 


Por ejemplo, recuérdese de nuevo la hipótesis nula H,: u = 10 contra la hipótesis 
alternativa H,: > 10. Entonces £ es igual a la probabilidad de equivocarse al 
rechazar Ho cuando H, es cierta. Al igual que antes, sea X la estadística de prueba. 
La figura 9.2 muestra cómo, mediante el cambio del valor crítico de 12 a 11, el tama- 
ño de error de tipo I disminuye (éste se encuentra por debajo de la curva que está a la 
izquierda en ambos casos), pero crece el tamaño del error de tipo II (éste se muestra 
bajo la curva que se encuentra a la derecha en ambos casos). à 

La probabilidad a del error de tipo I también se conoce como el nivel de signifi- 
cancia estadístico. En este contexto la palabra ‘‘significancia’”’ sólo implica que la 


f(X |H) fELH) AX lHo) f(x |H) 


a) Valor crítico = 11 b) Valor crítico = 12 


FIGURA 9.2 El efecto sobre a y £ al cambiar el valor crítico 
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evidencia muestral es tal que garantiza el rechazo de H, a un nivel dado de œ. En 
consecuencia, la frase “El rechazo de H, es estadísticamente discernible a un nivel 
dado a”, es s más apropiada. Un ejemplo ilustrará los conceptos anteriores. le 


Ejemplo 9.1 Supóngase que puede tolerar un tamaño del error de tipo I hasta de 


0.06 cuando se prueba la hipótesis nula 
i g ES > y 


Ho: u = 10 
contra la hipótesis alternativa 
` l H 1: H > 10 
para el problema del tiempo de armado. Supóngase que la distribución del tiempo 
necesario para armar una unidad es normal con desviación estándar a = 1.4 minu- 
tos. Se observan los tiempos de armado de 25 unidades seleccionadas aleatoriamente 


y escoge la media muestral X como la estadística de prueba. En particular, se desea 
comparar las siguientes regiones críticas. 


Prueba A: Rechazar H, si X > 10.65 
Prueba B: Rechazar H, si X > 10.45 
Prueba C: Rechazar H, si X > 10.25 


para determinar cuál de éstas satisface el tamaño del error de tipo I que puede tole- 
rarse y cuál tiene el valor más pequeño de £ entre las tres. 


Para determinar la probabilidad del error de tipo I, se asumirá que A, es cierta y 
se calculará 
PX >c|u = 10) =a, 


en donde c es el valor crítico, o frontera de la región crítica. Ya que se asume que el 
muestreo se lleva a cabo sobre una distribución normal, bajo Ho, X ~ N(10, 1.4/V/25). 
Por lo tanto, para la prueba A 

a = P(X > 10.65 | y = 10) 
PIZ > (10.65 — 10)/0.28 | y = 10] 
PIZ > 2.321 p = 10) 
0.0102. 


ti 


De manera similar, para la prueba B 


0.0537, 


a = P(X > 10.45| u = 10) = P(Z > 1.6! |u = 10) 
y para la prueba C 


l 


a = P(X > 10.25| u = 10) = P(Z > 0.89 | p = 10) = 0.1867. 
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Nótese que el tamaño del error de tipo I para la prueba C es mayor al límite impues- 
to de 0.06, mientras que para las pruebas A. y B, éste es menor que el límite dado. 
Puesto que, C no reúne. los requisitos, no será ya considerada. - 
-« Ya que ni la prueba A ni la B han violado el tamaño máximo del error de tipo I, se 
determinará cuál de estas dos tiene el tamaño más pequeño para el error de tipo II. 
Recuérdese que la ocyrrencia de un error de tipo II implica que Ha es falsa. Enton- 
ces, para un tamaño de la muestra y un valor máximo de a dados, el tamaño del 
error del tipo II será, en forma estricta, una función del intervalo de valores del pa- 
rámetro desconocido como se encuentran especificados en la hipótesis alternativa. 
En otra palabras 


Blu) = PA < c| u > 10). 


En particular, supóngase que el valor real de u és igual a 10.4, Entonces, para la 
prueba A 


B(10.4) = PX < 10.65 |  = 10.4) = P(Z<0.89 | u 


i 


10.4) = 0.8133, 


mientras que para la prueba B 


- B(10.4) = P(X < 10.45 | y = 10.4) = - P(Z < 0.18} u 


ii 


10.4) = 0.5714. 


De esta forma, si u = 10.4, la probabilidad de que la prueba A se equivoque al 
rechazar la hipótesis nula de que 4 = 10 es de 0.8133, y la correspondiente proba- 
bilidad para la prueba B es de 0.5714. Para este valor particular de la hipótesis alter- 
nativa, la prueba B es mejor que la A. 

Al ilustrar el intervalo de valores de las probabilidades £8 para estas dos pruebas, 
se continúa el proceso de calcular el tamaño del error de tipo II para otros valores 
representativos. En la tabla 9.1 se da la información pertinente. Posteriormente se 
ilustrará que para una hipótesis alternativa dada y un tamaño fijo del error de tipo I, 
puede reducirse el tamaño del error de tipo II mediante el incremento del tamaño de 
la muestra. 

:Con base en la información proporcionada en la tabla 9.1, pueden formularse las 
siguientes observaciones. Conforme el tamaño del error de tipo I disminuye (prueba 
A), el tamaño del error de tipo 11 aumenta. Si la afirmación propuesta por la hipóte- 
sis nula es falsa pero difiere muy poco del verdadero valor, la opción de no rechazar 
Ho es alta. Sin embargo, si la hipótesis nula es falsa por una cantidad muy grande, 
la probabilidad de equivocarse al detectar su falsedad es pequeña. De esta forma, al 
comparar las pruebas A y B, si puede tolerarse un tamaño del error de tipo I hasta de 
0.06, entonces la prueba B es mejor que la A debido a que sus probabilidades £ son, 
de manera uniforme, más pequeñas que las de la prueba A. 


A EN DP, 
TABLA 9.1 Probabilidades para el error de tipo II para las pruebas A y B 


H 10.2 10.4 10.6 10.8 11.0 11.2 11.4 


Prueba A 0.9463 0.8133 0.5714 0.2946 0.1056 0.0250 0.0037 
Prueba B 0.8133 0.5714 0.2946 0.1056 0.0250 0.0037 0.0003 
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- Con anterioridad se sugirió que es deseable establecer una hipótesis. nil simple., De 
hecho, también es deseable establecer una hipótesis alternativa simple ya que sólo en este 
caso es posible determinar valores únicos de los' tamaños de los errores' ‘tipo I y: tipo: I4 
Con el propósito de ilustrar lo anterior, recuérdese el ejemplo 9.1. Supóngase que pará 
éste también; se ha formulado la siguiente hipótesis alternativa H: a = 10.8. En- 
tonces para las pruebas A y B, los tamaños de los errores de tipo I permanecerán en 
0.0102 y 0.0537, respectivamente. Pero en este caso la probabilidad del error de tipo 
II para cualquiera de las pruebas tendrá un solo valor más que un intervalo de valo- 
res, como en el ejemplo 9.1. Sin embargo, debe notarse que una hipótesis alternativa 
simple puede tener una aplicación real limitada. De acuerdo con lo anterior, se pro- 
cederá bajo la hipótesis de que la hipótesis nula es simple y la alternativa compuesta. 

En este contexto se desean estudiar lós tipos de regiones críticas que pueden sur- . 
gir. Considérese la hipótesis nula simple. 


Ho: 0 = bo 


-con respecto al parámetro de interés 6, cuando se muestrea una distribución cuya 
función ,de densidad de probabilidad es f(x; 6), en donde 6, es el valor pro- 
puesto de 6. Si la hipótesis alternativa es de la forma. 


H: 0> 


H,¡:0< 0, 


Se dice que H, es una hipótesis alternativa unilateral, debido a que los posibles valo- 
res de 9 bajo H, se encuentran a un lado del valor propuesto bajo Ho. La región 
crítica también recibe el nombre de región de rechazo unilateral debido a que es, 
en forma intuitiva, razonable rechazar H, para los valores de una estadística de 
prueba apropiada que, si H, fuese cierta, son extremos en la dirección que especifi- 
ca la hipótesis alternativa. Vale la pena notar que la hipótesis alternativa debe for- 
mularse sólo si el valor de uno de los parámetros que se encuentre en el lado opuesto, 
no tiene sentido para el investigador. De otro modo, debe establecerse una hipótesis 
alternativa bilateral. Esto es, si la hipótesis alternativa no proporciona una dirección 
con respecto al valor propuesto de 9,, entonces se dice que H, es una hipótesis alter- 
nativa bilateral de la forma 


H: 0 4 0. 


Una hipótesis alternativa bilateral implica la existencia de una región crítica 
bilateral* ya que H, incluye valores de O que se encuentran a ambos lados del valor 
propuesto de 6,. Para este caso, la decisión se inclina a rechazar la hipótesis nula 
para aquellos valores de la estadística de prueba que, si Ho fuese cierta, son extre- 
mos en cualquier dirección. 


* En forma general, una región crítica bilateral es simétrica; las dos partes de la región se seleccionan de 
tal manera que el área bajo cada una de las regiones sea igual. 
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“Foloncia de a Subo 
TABLA 9.2 Potencias de las” pruebas: A y B para el ejemplo 9.1 +. : día 


$ 


h 10.2 ° 10.4 106. 108 l m0, MZ 0 114; 


vi 


Prueba A 0.0537 0.1867. só 0.4086. , 0,7054. 0.8944. 1:::0.9750.... 0.9963 
Prueba B 0.1867 0.4286. ,.-0.7054 0.8944. 0.9750, , 0.9963 - 0.9997 


i A OE A o E IR Sy Mig 


Si se asume una hipótesis alternativa compuesta, es necesario generalizar los me- 
dios por los cuales se puede evaluar la interpretación de una prueba dada, en forma 
especial cuando se compara ésta con otras pruebas. Como se ilustra en el ejemplo 
9.1, el tamaño del error de tipo II varía para los diferentes valores de O de la hipóte- 
sis alternativa cuando H, es compuesta. De esta forma el tamaño del error dé tipo IT 
se obtiene como una función de los valores alternativos de 0 bajo H,. Debe notarse 
que £(0) se conoce como la función característica de operación, y cuando se grafica 
f£(0) para diversos valores de 0 de H,, se obtiene una curva característica de opera- 
ción (CO). 

Dado que £(0) es la probabilidad de que un valor de la estadística de prueba no 
se encuentre en la región crítica cuando A, es falsa, entonces 1 — £(0) representa la 
probabilidad de que un valor de la estadística de prueba se encuentre dentro de la re- 
gión crítica cuando H, es falsa. Esta probabilidad se conoce como la función poten- 
cia de la prueba. En otras palabras, las funciones potencia y características de open 
ción son complementarias. 


Definión 9.4 La función P(0) = 1 — 8(0) recibe el nombre de función potencia y 
representa la probabilidad de rechazar la hipótesis nula cuando ésta es falsa; es de- 
cir, cuando el valor del parámetro de H, es cierto.* 


En esencia, la potencia de una prueba es la probabilidad de detectar que H, es, 
en forma verdadera, falsa; de aquí el uso de la palabra **potencia””. Como ilustra- 
ción, recuérdese el ejemplo 9.1. Los complementos de las probabilidades de los erro- 
res de tipo II que se encuentran en la tabla 9.1 son las potencias de las pruebas A y B 
para los valores indicados de 4 cuando se prueba H: pH = 10 contra H,: q > 10. 
Estos valores se encuentran en la tabla 9.2. De esta información, es evidente quela 
prueba B es más poderosa que la prueba A. Pueden graficarse las funciones caracte- 
rísticas y de potencia de las pruebas A y B contra los valores de u, dando las curvas 
características de operación y de potencia que se ilustran en la figura 9.3. 

Recuérdese que para un a fijo y una hipótesis alternativa dada, puede disminuir- 
se el tamaño del error de tipo II si se incrementa el tamaño de la muestra. Por lo tan- 
to, se desprende que la función de potencia aumentará conforme aumenta el tamaño 
de la muestra. Como ilustración, considérense las pruebas A y B del ejemplo 9.1 
para las que el tamaño de la muestra se aumenta hasta un valor de 50. Dado que 
se insiste que los tamaños del error de tipo I siguen siendo los mismos para las 


* Si A, es cierta, algunos autores definen la potencia para ser igual al tamaño del error de tipo i. 
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N 


. ` Prueba B 


9.6 10.0 10.4 10.8 11.2 14.6 9.6 10.0 10.4 10,8 11.2 11.6 u 
a) Curva de potencia b) Curva CO 


FIGURA 9.3 Comparación de las funciones patencia y característica de operación para A y B 


pruebas A y B, sus valores críticos pueden disminuir de valor debido al incremento 
en el tamaño de la muestra. En particular, pra la prueba A 


PĒ > ca| u = 10) = 0.0102, 


o 
Ca i0 = 2.32, 
1.4/4/50 
Ca = 10.46. 


De manera similar, para la prueba B 
P(X > c| u = 10) = 0.0537, 


y Cp = 10.32. La tabla 9.3 contiene información comparable con la de las tablas 9.1 
y 9.2 para n = 50. , 

También puede mostrarse la potencia para diferentes valores de x relativos a la 
distribución de muestreo de la estadística X. Considérese, por ejemplo, la prueba B, 


TABLA 9.3 Potencias y probabilidades 8 de las pruebas A y B para n = 50 


u 10.2 10.4 10.6 10.8 11.0: 11.2 11.4 

Prueba A 'P(u) 0.0951 0.3821 0.7611. 0.9573 0.9968 0.9999 =| 
Biu) 0.9049 0.6179 0.2389 0.0427 0.0032 0.0001 =0 

Prueba B Piu) 0.2709 0.6554 0.9207 0.9922 0.9997 = A F k 


Blu) 0.7291 0.3446 0.0793 0.0078 0.0003 
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E) 


u= 10.05 ` ` E 


Potencia = 0.0869 ` 


10 10.32 
fE) 
u= 10,4 
Potencia = 0.6554 
10 10.32 
f(x) 
u= 10.8 
Potencia = 0.9922 
10 10.32 


FIGURA 9.4 Probabilidades de rechazo de H, para la prueba B (n = 50) 


en la que el valor crítico es cg = 10.32 para n = 50. La figura 9.4 muesra la distri- 
bución de X para distintos valores de y > 10, en donde el área sombreada es la po- 
tencia o la probabilidad de rechazar H,. Nótese que conforme el valor de y se aleja 
del valor propuesto bajo Ho, la potencia de la prueba aumenta. 


9.4 Las mejores pruebas 


En la última sección se determinó que la evaluación de la prueba de una hipótesis 
estadística debe hacerse con base en su función de potencia. En esta sección se regre- 
sará al problema igualmente importante de cómo construir una buena prueba. En un 
sentido teórico, el método para construir buenas pruebas es más claro cuando tanto 
las hipótesis nula y alternativa son simples o cuando ambas son cumpuestas. En este 
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punto, se considerará un teorema para construir las mejores pruebas en el caso sen- 
.cillo de Ho contra H.. Este teorema también tiene alguna aplicación en casos más 
prácticos. ' : pe E aE 
Sea Xi, SA ua Wa das muesra akatoa de tamaño n de una población cuya 
Enación (densidad) de e es fos; ns y considérese la pa 


47 l H: y = y 
contra 
H: 0 = 0i, 


en donde se especifican 6, y 0,. Supóngase que « es el tamaño máximo del error de 
tipo I que se puede tolerar. Entonces la mejor prueba para Ho contra H, es aquélla 
que tiene el tamaño más pequeño del error de tipo H (y de esta forma la mayor po- 
tencia) de entre todas las pruebas que tengan un tamaño del error de tipo 1 no mayor 
que a. Se pueden determinar las regiones críticas para estas pruebas mediante el uso 
del siguiente teorema, el cual se conoce como lema de Neyman-Pearson: 


` Teorema 9.1 Si existe una región crítica C de tamaño a y una constante positiva k 
tal que 


LXi, X2, -03 Xp 5 Op) 


<k interior C, 
Liis X2, ...> Xn; 01) 


zk exterior C, 
LXi, X25 -.., Xn3 0i) 


entonces C es la mejor región crítica de tamaño a para probar H,: 6 = 60), contra 
H,: 0 = 6,,en donde L, y L, son las funciones de verosimilitud relativa a Ho y H,, 
respectivamente. 


La demostración del teorema 9.1 se encuentra más allá del alcance de este libro. 
Sin embargo, puede aclararse la utilidad de este teorema mediante los siguientes 
ejemplos. 


Ejemplo 9.2 Sea X,, X,, ..., X, una muestra aleatoria de tamaño n de una distri- 
bución normal con media u desconocida y varianza g? conocida. Determinar la me- 
jor región crítica de tamaño a para probar 

Ho: p = Ho 
contra 

H: p= p, 


en donde 4, > Ho- 
Bajo H, la función de verosimilitud es 


LX) X2, ><» Xni Mo) = (V2r a)” a| $ gi p 2|, 


i 
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y bajo H, ésta es =: : SASS o . 
Lal Azs cis Xai Hi) = (2 0) ex gt .»/ 2| 


Entonces, de acuerdo con el teorema 9.1, la mejor región crítica es aquélla para la 
cual os 


exp| -X(x — pino 


A O 
e| 0 -= 1/20 | 


Esta desigualdad puede escribirse como 


l 3 
ol È E uy T Nx z sor |) <-Kk,. (9.3) 
la cual, después de tomar los logaritmos, se reduce a 
Y, — mY- E- o < 20"n(k). (9.4) 


El lado izquierdo de (9.4) se simplifica de la siguiente manera: 


Y = uy - D — Mo) Dx z 241 Dx; + nui — Xx + 20 X; — nus 
(ui — 15) — Uy — 10) Ai- 


Sustituyendo en (9.4) se tiene 


nè — ul) — Ap, — Md, < 20"In(k), 


Up — M0) < 20 "In(k) — ni — 13). 


Puesto que u, > Mo, la cantidad —2(u4, — Mo) es negativa; así que 


Na nlui — uo) — 20 In(k) 
i 2(4, — Mo) 


nui — m) — 20"In(k) 


(9.5) 
2n(4, — Mp) 


= 


La expresión (9.5) define la forma de la mejor región crítica para probar Ho: u 
= uy contra Hi: y = p, en donde u, > Mp. De manera sencilla, la mejor re- 
gión crítica es el extremo derecho de la distribución de muestreo de X bajo la hipóte- 
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sis nula. Para un « dado, el valor crítico . Xp- puede,.encontrarse mediante i una- 
elección apropiada de la constante positiva K, de manera tal que; . 


En particular; N que se escoge un tamaño del error de tipo I lud a 0.05. 
Entonces el valor crítico de žo es tal que N 


Ya que bajo Ho, X tiene una distribución normal con ee Ho y desviación están- 
dar a/ vn, entonces DA 
y2 aL deny ILo 


pet > 


= 0.05 lo line 
A a = po) ' o 


pero 
P(Z > 1.045 | u = po) = 0.05, 


en donde Z ~ N(0, 1). De acuerdo con lo anterior, el valor crítico de X, es tal que: 


Xo — Ho 
e aa 1.645, 
o È La 
y pro mabe, 
Vn 


Por lo tanto, se rechazará a H: 4 = py en favor de H,: p = p > Ho cada vez 
que un valor de X sea > (1.6450/ T + Mo. 

Es importante que el lector note que la forma de la mejor región crítica, como 
está dada por (9.5), para probar H¿: 4 = Ho contra H,: p =. p, es independiente 
del valor de u, siempre que 4, > 4o- En otras palabras, para toda 4, > Mo la 
mejor región crítica en la prueba de Ho: u = po es el extremo derecho de la dis- 
tribución de muestreo de X. Así, la expresión (9.5) en realidad da la forma de la me- 
jor región para probar la hipótesis nula simple H,: 4 = Ho contra la hipótesis 
alternativa compuesta H,: 4 > po. Esta mejor región crítica recibe el nombre de 
región (o prueba) uniformemente más potente para probar Ho: p = po contra 
H,: p > po. Los comentarios anteriores serán generalizados con la siguiente defini- 
ción de la mejor prueba. 


Definición 9.5 Se dice que una prueba de la hipótesis H.: Q = 0, es la prueba 
uniformemente más potente de tamaño a si ésta es por lo menos tan poderosa, para 
cualquier valor posible 0 de la hipótesis alternativa, como cualquier otra prueba de 
tamaño <a. Esto es, la función de potencia de esta prueba es, por lo menos, tan 
grande como lá de cualquier otra prueba de tamaño <a para cualquier valor 6 de la 
hipótesis alternativa. 
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En forma desafortunada no siempre existen las pruebas uniformemente más po- 
tentes. Como se ilustró en el ejemplo 9.2, se puede usar el lema de Neyman-Pearson: 
para determinar la prueba uniformemente más potente para cierto número de situa- 
ciones de interés práctico en las que la hipótesis alternativa es compuesta pero unila- 
teral. a ls A a] 


Ejemplo ai Sea XX, ..., X, una muestra aleatoria de tamaño n de a 
distribución gama con parámetro de escala O desconocidos y parámetro de forma 
a.* Determinar la mejor región crítica de tamaño aœ para probar : 


H.: 0 = o 
contra 
H;: 0 = 0,, 
en donde 6, < bo- 


Se procederá en forma similar a la del ejemplo 9.2. Bajo H, la función de verosi- 
militud es 


| LA% 1) X2, -..» Xn; 09) = M (a)0o] ” B] x o 3 1/0). 


y para la hipótesis alternativa ésta es 


LXi, X2, +...» Xn; 01) = [ajo] " JI x$ oro 3 1/0) 


i=} i= 


Con base en el lema de Neyman-Pearson, la mejor región crítica es aquélla para la 


cual 
la) 
05" exo(| — 34/0) 


cl -+ Z) < (0/0,)"k 


bed a 
ol (2-2) | < (0a/0,)“k 


[Oo — 6,9/6,01),x, < In[k(0/0,)"). 


Esto es 


* Se ha optado por denotar el parámetro de forma de la distribución gama con a en lugar de a: para evitar 
confundir éste con el tamaño del error de tipo I. 
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Se observa que la cantidad 9, — 6, es positiva ya que por hipótesis 9, < 6,; enton-, 
4 i aA > i 
ces AAN 


Xx < 8081 In[k(00/0,)*1 i ñ | A sob l 


Ie d e bo — 0, 
6 | a a , S a cOn OS 
| | ACOTADO a 


n(0, — 6,) 


De acuerdo con lo anterior, la mejor región crítica para probar H,: 6 = 6, contra 
H: 0 = 0, en donde 6, < 6, es el extremo izquierdo de la distribución de 
muestreo de X. El valor crítico Xy, para un tamaño dado del error de tipo I, es tal 
que: 


PA <x, 10 =)= 0, 


y puede encontrarse, en forma directa, de la distribución Je X, la que en este caso 
también es una distribución gama. Para hacer lo anterior es necesario utilizar la fun- 
ción gama incompleta. De manera alternativa, si el tamaño de la muestra es lo sufi- 
cientemente grande, puede emplearse el teorema central del límite y usar entonces la 
aproximación normal. 

De nuevo, es interesante notar que la forma de la mejor región crítica dada por 
(9.6) no depende del valor particular 0 siempre que 8, < 6,.Por tanto, en realidad 
la región. crítica indicada por (9.6) es una región uniformemente más potente para 
probar H: 0 = 6, contra H,: 9 < 0, cuando se muestrea una distribución gama 
con parámetro de forma conocido. 

Se invita al lector a que compruebe que si, en el ejemplo 9.2, la hipótesis alterna- 
tiva es de la forma H,: u < uo, la mejor región crítica para probar Ho: u = uy €s 
el extremo izquierdo de la distribución de X. Por lo tanto, se desprende que si en el 
ejemplo 9.3 la hipótesis alternativa fuese H,: 0 > 0,, la mejor región crítica debe 
ser el extremo derecho de la distribución de X. Sin embargo, si la hipótesis alternati- 
va en cualquiera de estos dos ejemplos fuese bilateral (esto es, de la forma general 
Ho: 6 = 6, contra H,: 0 % 0,), no puede encontrarse ninguna región crítica 
mejor, debido a que para todos los valores alternativos 9, < 6,, el extremo izquierdo 
de la distribución de X será el mejor, mientras que para todos los valores 6, > 6, es ~~ 
el extremo derecho el que será el mejor. Por lo tanto, como regla general, las 
pruebas uniformemente más potentes usualmente existen para hipótesis alternativas 
unilaterales, pero éstas no pueden encontrarse para hipótesis alternativas bilaterales. 

A continuación se ilustrará el uso del lema de Neyman-Pearson para determinar 


la mejor región crítica cuando la variable aleatoria de interés es discreta. G 


Ridi 
`~ 


Ejemplo 9.4 Sea X,, X3, ..., X, una muestra aleatoria de tamaño n de una distri- 
bución de Poisson con párametro A desconocido. Determinar la mejor región crítica 
de tamaño a para probar 


Ho: A = Av 
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contra . ; Ek Maa 
H 1: A = A» 


E 
a 


donde A, > Ao. 
Al proceder de manera similar a la de los ejemplos 9.2 y 9.3, se tiene 


5 . vexp(— ndo) AS 
Lox, X2, i Xn; Ao) = E e 


exp- nÀ pon 
Lili, X2, 000, Xn Aj) = A, 


De esta manera, la mejor región crítica es aquélla para la cual 


exp(— nào) Aj" 


k 
expl- nà) aF" 
E 
Mo Er; ' 
X explr(A1 — AY] < k. 
1 
Después de tomar los logaritmos, se tiene 
In(ào/À1) Xx; + nA, — ào) < In(k) 
o 


n(A) Dx; < In(k) -nA — Ay). | 


Pero si A, > Ap, entonces 0 < Ay/A, < 1 y el logaritmo natural de un número 
entre 0 y 1 es negativo. Esto da como resultado que la desigualdad anterior pueda es- 
cribirse como 


Sx > ln(k) — n(A — A) (9.7) 
In(ào/ Ài) 

La expresión (9.7) define la forma de la mejor región crítica para probar H,: A = Ay 
contra H,: A = A, > Ap. En particular, dado que Y = ÈX; también es una variable 
aleatoria de Poisson (véanse los ejercicios en el capítulo 7), la región crítica de la for- 
ma y = Ex; => yo es equivalente a la desigualdad (9.7), en donde el valor crítico yo 
se escoge de manera tal que 


P(Y > yo) = A. 


Debido a que Y es una variable aleatoria discreta, es más difícil determinar el valor 
crítico de yy de manera tal que P(Y = yọ) sea exactamente igual al tamaño del error 
de tipo I previamente seleccionado. Para salvar esta dificultad puede implementarse lo 
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que se conoce como procedimiento de aleatorización (véase [2)). Desde un punto de 
„vista práctico, . simplemente se: escoge .la.región. crítica x: el valor de yy: cuya $ área 
deberá: ser lo más cercana no del error «de.tipo:I que; ceda ad y 


9. 5 _ Principios ‘generales para p probar una H simple contra una à H, . 
- uni O bilateral -- E | 


EA 


En la última sección se desarrolló un criterio con el cual se pueden determinar las 
mejores pruebas para probar hipótesis estadísticas. Se mencionó que no existen 
pruebas uniformemente más potentes para hipótesis alternativas bilaterales a pesar 
de que, en forma usual, existen para hipótesis alternativas unilaterales. En esta sec- 
ción se desarrollarán criterios generales de prueba para los siguientes tres casos los 
cuales involucran hipótesis nulas simples y alternativas compuectas. 


_ Casol Caso 2 Caso 3 
Ho: 0 zR bo Hs: 0 = 9 H,: 0 = 9 
H:O FO H: 0> 0 H: 8< Qo- 


Dado que para el caso 1 no pueden determinarse pruebas uniformemente más poten- 
tes, para tipificar éste se desea comparar las funciones de potencia de dos pruebas 
para un ejemplo especifico. 


Ejemplo 9.5 Supóngase que en cierta ciudad sólo hay dos estaciones de televisión: 
el canal 6 y el canal 10. Se piensa que para las noticias de la tarde el auditorio se en- 
cuentra dividido en partes iguales para ambos canales. Una compañía se interesa en 
probar la afirmación de que la proporción de televidentes para las noticias de la 
tarde es igual a 0.5 para ambos canales. La compañía no posee ninguna información 
a priori para sugerir una alternativa unilateral por lo que decide probar la hipótesis 
nula 


Ho: p = 0.5 
contra 
H: p £ 0.5. 


La compañía encuesta a 18 residentes seleccionados al azar y pregunta qué canal pre- 
fieren para ver las noticias de la tarde. El número X indica que el canal 6 es el que 
se ha seleccionado. Se proponen las siguientes dos pruebas: 


Prueba A: Rechazar HysiX < 40X > 14. 
Prueba B: Rechazar H¿siX < 50X => 


Si la compañía piensa tolerar un tamaño máximo de 0.1 para el error de tipo I, deter- 
minar la mejor prueba a emplear para decidir entrc 22, y H,- 


MI AS 
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La estadística de prueba X es una variable aleatoria binomial con n = 18 y, bajo 
la hipótesis nula, p: = 0.5; Las regiones críticas para ambas pruebas son intuitiva- 
mente razonables ya que se rechazará la hipótesis nula :para aquellos valores de X 
que se encuentren cercanos a0 o a 18. En otras palabras, si p fuese realmente igual a 
0.5, debe esperarse observar un valor de X cercano a 9. Entre más se aleje el valor 
observado' del valor de 9, en cualquier dirección, se tendrá más evidencia para 
inclinarse a rechazar la hipótesis nula. Esto surge del hecho de que: cuando se 
prueban hipótesis estadísticas, el pensamiento se basa estrictamente en la probabili- 
dad. Por ejemplo, si p fuese igual a 0.5, la probabilidad de que X tome un valor 
entre 6 y 12 incluyendo a estos valores es . 


P(6 < X < 12) = 0.9038, 


Por lo tanto, es poco probable que H, sea correcta cuando se realice un valor de X 
grande o pequeño. we echo, la probabilidad para observar un valor grande o pe- 
queño de X, dado que H, es cierta, es precisamente lo que se entiende por el tamaño 
del error de tipo I. 

Para la prueba A, la probabilidad del error de tipo I es 


an = PIX <4|p = 0.5) + P(X > 14] p = 0.5) 
i = 0.0154 + 0.0154 
= 0.0308, 
y para la prueba B éste es 
ay = P(X < 5|p = 0.5) + P(X > 13 | p = 0.5) = 0.0962. 


No es excesivo notar que las regiones críticas bilaterales son simétricas para ambas 
pruebas. Esto es lo mejor desde el punto de vista teórico y el procedimiento más 
aceptado desde el punto de vista práctico para el manejo de hipótesis alternativas bi- 
laterales. Ya que ambas pruebas tienen valores de « menores al tamaño máximo que 
puede tolerarse del error de tipo I, se compararán sus funciongs de potencia para 
decidir cuál es la mejor de las dos. En la tabla 9.4 se dan las potencias de las pruebas 
A y B para distintos valores de p. 


TABLA 9,4 Funciones de potencia de las pruebas A y B 


P 0.i 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
Prueba A P(X < 4) 0.9718 0.7164 0.3327 0.0942 0.0154 0.0013 =0 =0 =0 
PIX >= 14 =0 =0 = 0 0.0013 0.0154 0.0942 0.3327 0.7164 0.9718 


Potencia 0.9718 0.7164 0.3327 0.0955 0.0308 0.0955 0.3327 0.7164 0.9718 


Prueba B PIX < 5) 0.9936 0.8671 0.5344 0.2088 0.0481 0.0058 0.0003 =0 =0 
PX >=13) =0 =0 0.0003 0.0058 0.0481 0.2088 0.5344 0.8671 0.9936 


Potencia 0.9936 0.8671 0.5347 0.2146 0.0962 0.2146 0.5347 0.8671 0.9936 


aa a 
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. De la tabla se observa que para cualquier valor de p, la potencia de la prueba B es 
mayor.que la de la prueba A. De acuerdo con lo anterior, la prueba Bes unifórme- 
mente más poderosa que la prueba A y es la mejor prueba á utilizar para.probar lás 
hipótesis indicadas. En la figura 9.5 se dan las curvas de potencia para las pruebas-A 
y B. Nótese que en ambos casos las curvas de potencia crecen en forma simétrica 
conforme los valores de p se alejan del valor propuesto para éste bajo H. Lo ante- 
rior es un comportamiento típico de una función de potencia para hipótesis alterna- 
tivas bilaterales, siempre que la correspondiente región crítica bilateral sea simétrica: 


9.5.1 Principios generales para el caso 1 
Considérese la prueba de la hipótesis nula 
Ho: 0 = 0a ` 
contra la alternativa i 
A H,;:0 £ 0, 
donde 0, es el valor propuesto de algún parámetro 0 bajo H,. Dada una muestra 


aleatoria de tamaño n de la distribución de interés, el procedimiento general para 
probar Ho, es escoger el mejor estimador de 0, T y rechazar Ho cuando el estimado 


Prueba B 


Potencia 


i 
y 


FIGURA 9.5 Comparación de las funciones de potencia para A y B - 
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t obtenido de la muestra, es en forma ““suficiente””, diferente del valor propuesto de 
8a. Este procedimiento se basa en la noción de un evento raro, la cual ya se ha 
ilustrado en capítulos anteriores. Esto es, si el estimado £ es.lo suficientemente dis- 
tinto del valor propuesto 6,, entonces se ha observado un evento raro (y la hipótesis. 
nula es correcta), o se ha observado un valor de la estadística que sugiere un valor 6 
diferente del propuesto 6,. Cuando el estimado £ es en forma suficiente distinto de. 
0,, se asumirá la última posibilidad y se dejará el tamaño del error de tipo I igual a 
la probabilidad del anterior. En particular, para un tamaño preseleccionado æ, del 
error de tipo I se obtiene una región crítica bilateral en los extremos de la distribu- 
ción de muestreo de 7, de manera tal que el área, en cualquier lado, más allá del va- 
lor crítico es igual a œ/2. Entonces se rechaza Ho en favor de H, cuando el estima- 
do se encuentra dentro de la región crítica. Cuando el estimado f no se encuentra 
dentro de la región crítica, ro puede rechazarse la hipótesis nula. De esta forma, 
cualquier diferencia con respecto al valor de 9, se considera causada por la fluc- 
tuación en el muestreo del estimador T. 

Este enfoque es muy similar a la construcción de 1.1 intervalo de confianza bila- 
teral para 6. Para cualquier valor propuesto de 0, que se encuentre dentro de un in- 
tervalo de confianza del 100(1 — a)% para 0, Ho no será rechazada. Dado un 
intervalo de confianza del 100(1 — a)% para 9, sólo los valores propuestos bajo 
Ho que se encuentren fuera de este intervalo darán como resultado el rechazo de la 
hipótesis,nula. En este contexto, es apropiado considerar a un intervalo de confianza 
como uña proposición más general de inferencia estadística para 0, ya que ésta 
incluye a todos los posibles valores de 9, que podrían no llevar al rechazo de la hipó- 
tesis nula. 


9.5.2. Principios generales para el caso 2 


Considérese la hipótesis nula 


Ho: 0 = 0 
contra la alternativa 
H: 0 > 0. 


Para este caso al igual que para el caso tres, la naturaleza unilateral de la hipótesis 
alternativa sugiere la existencia de alguna información a priori la cual ayuda a defi- 
nir la dirección unilateral de H, en relación con el valor propuesto de 0,. El procedi- 
miento general para probar Ho es de nuevo el escoger la mejor estadística T de 9 y 
rechazar H, cuando el estimado f es en forma “suficiente”? mayor que el valor 
propuesto 6,. La palabra “suficiente”? implica que se tiene una tolerancia para la 
fluctuación en el muestreo del estimador T. Sin embargo, si lo que se obtiene de esta 
forma por medio de la muestra aleatoria se encuentra más allá de esta tolerancia, 
Heo será rechazada. De esta forma, para un tamaño «x, del error de tipo I, la región 
crítica se encuentra localizada en el extremo superior de la distribución de muestreo 
de T y H, se rechaza si el estimado f no es menor que el valor crítico. En la figura 
9.6 se ilustra la curva de potencia típica para este caso. 
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Potencia 


FIGURA 9.6 Curva típica de potencia para el caso 2 


9.5.3 Principios generales para el caso 3 
Para probar la hipótesis 
Ha: 0 =0 
contra g 
H,.0< b, 


el procedimiento general es rechazar a H, cada vez que el estimado ż sea, en forma 
““Suficiente””, menor que el valor propuesto y. La región crítica de tamaño a se lo- 
caliza en el extremo inferior de la distribución de muestreo de T en forma tal que el 
área a la izquierda del valor crítico sea igual al tamaño a: del error de tipo I. Cual- 
quier valor £ de la estadística de prueba T que se encuentre en la región crítica llevará 
al rechazo de Ho. En la figura 9.7 se muestra la curva de potencia para este caso. 

Con respecto a la prueba de hipótesis estadísticas, el lector debe tomar nota de lo 
siguiente. Debido a que se coloca un gran enfásis en el tamaño del error de tipo I ge- 
neralmente se formula la hipótesis nula en forma tal que ésta se rechace si la eviden- 
cia experimental apoya esta decisión. En otras palabras, lo que realmente se desea es 
concluir que la hipótesis alternativa es la correcta. De esta forma, cuando se prueban 
hipótesis estadísticas, se juega un papel parecido al de un fiscal en su intento de pro- 
porcionar la suficiente evidencia para rechazar la hipótesis nula. Los indicado es 
escoger el tamaño del error de tipo I antes de la determinación de la muestra aleato- 
ria. Si se obtiene como resultado que la hipótesis nula no puede rechazarse con el va- 
lor escogido de a debe evitarse aumentar el tamaño del error de tipo I con la idea de 
rechazar la hipótesis nula. 

La discusión anterior constituye el método clásico para probar hipótesis estadís- 
ticas. Se han dirigido algunas críticas directas hacia este enfoque debido a que la de- 


326 Prueba de hipótesis estadísticas 


Potencia 


FIGURA 9.7 Curva típica de potencia para el caso 3 


cisión final de rechazar o no una Ho dada, es demasiado cortante y seca y no pro- 
porciona una medida real de que la decisión sea correcta en términos de la probabili- 
dad. Para esto lo que se ha sugerido es el cálculo del llamado valor p. El valor p es la 
probabilidadd, dado que Ho es cierta, de que la estadística de prueba tome un valor 
mayor o igual que el calculado con base en la muestra aleatoria. Un valor p relativa- 
mente pequeño puede sugerir que si H, es realmente cierta, el valor de la estadística 
de prueba sea poco probable. Puede entonces optarse por rechazar H, debido a que 
esta decisión tendrá una alta probabilidad de ser correcta. 

Se recomienda el cálculo del valor p acoplado con el enfoque clásico de escoger 
un tamaño del error de tipo 1 antes de la determinación de la muestra aleatoria. En- 
tonces, la decisión de rechazar o no a Ho puede basarse en una región crítica de tama- 
ño a, con el valor p proporcionando una medida real en términos de la probabilidad 
de que la decisión sea correcta. De acuerdo con lo anterior, se sugiere la siguiente 
regla: si el valor p es menor O igual a a, se rechaza H,; de otra forma no puede re- 
chazarse la hipótesis nula. El cálculo del valor p se ilustrará en los ejemplos sub- 
secuentes de este capítulo. Debe notarse que muchos paquetes estadísticos para 
computadora, tales como SAS, SPSS, BMD y otros, imprimen el valor p para casi 
todas las situaciones en las que se involucra, de alguna manera, la prueba de hipóte- 
sis estadísticas. 


9.6 Prueba de hipótesis con respecto a las medias cuando se 
muestrean distribuciones normales 


En esta sección se estudiará la prueba de hipótesis sobre la media de una distribución 
normal o las medias de dos distribuciones normales independientes. Se examinarán 


qt en 


9.6 Prueba de hipótesis con respecto, adas, medias a) 


í los casos en los que los valores.de las varianzas son tanto conócidos como no cońoč 
dos. Se invita'al lector a que consulte fas secciones 8. 4. Y a s 4. 3 para: erectuar com- 
paraciones con los intervalos de confianza. eaen EEA 


cat ak aa 


9.6.1 “Pruebas ; para una muestra RR cia. TE Pi, 
Sea. Xr DXi ... Xx, una muestra aleatoria de una distribución dom con meda 
desconocida. En este caso el interés recae en probar uno de los siguientes conjuntos 
de hipótesis con respecto a. 
Hip =w Hip = Bo Ho: 1M= Ho 
TA Hı: u > Mo Hi: u < Mo 
Primero, supóngase que el valor de la varianza poblacional a? es conocido. Enton- 
ces la estadística de prueba es la media muestral X, misma que, bajo la hipótesis 


nula, tiene una distribución normal con media xo y desviación estándar o/ Vn. La 
región crítica de tamaño «œ para la hipótesis bilateral es de la forma 


Rechazar H, si or p (9.8) 


X < Xa/2 > 
donde X¡-ay2 Y Xay2 son los valores cuantiles críticos de ¥ de manera tal que 
PA = X-a) = a/2 and PË <) = a/2. 
Dado que bajo Ho, X ~ N(uo, a/ vn), entonces en forma equivalente 


> Maz — Po pe < Yan Z Po Z 
P(z= v/v ) a y pz nate) a/2 


_Xi-ap — Ko y ma Xaj2 — Po 
Zi- Er T = = 
l-a/2 o/Vn 0/2 o/Vn 


en donde Z, - «/2 Y Za/2 SON los correspondientes valores cuantiles de Z. Por lo tanto, 
se sigue que Ho debe rechazarse cuando un valor x de la media muestral X es tal 
que 


az. az 
T> “2 4 y o <= 
n 


+ Ho- 


De manera equivalente, se rechazará Ho cuando 


Ñ z = Z1- a/2 o 7= S Za/2> 
á 


donde z = (¥ — po)/(@/Vn) es el valor de la correspondiente normal estándar al 


valor x de X. 
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Para la hipótesis alternativa unilateral A,: u > pọ, la región crítica de tamaño 
a es el extremo derecho de la distribución de muestreo de X; ésta es de la forma 


Rechazar Ho si X = Xia, (9.9) 


en donde x,.., es el valor cuantil de X, tal que P(X = x,_,) = a. En forma simi- 
lar, para la hipótesis alternativa H,: *< mo, la región crítica es de la forma 


Rechazar H, si X <X,, (9.10) 


en donde el valor x, es tal que P(X < X,) = a. 

En la figura 9.8 se ilustran las regiones críticas para las hipótesis unilaterales en 
términos de la estadística X y su transformación a la variable aleatoria normal es- 
tándar Z. En la tabla 9.5 se proporciona un resumen de los criterios de rechazo para 
la pueba de hipótesis con respecto a la media de una distribución normal con varian- 
za conocida. 

Antes de resolver un ejemplo, se desarrollará una expresión general para la deter- 
minación del error de tipo II para uno de los casos. Considérese la hipótesis 
nula Ho: p = My contra la alternativa H,: 4 > Ho. Supóngase que en realidad 
u = H; > pọ. De acuerdo con (9.9), no puede rechazarse H, si un valor de X es 
menor que (o z,_./Vn) + uo. Dado que la probabilidad del error de tipo II es igual 


f(x | Ho) f(x | Ho) 


Ho:4= 
Rechazar Hg EETRI Rechazar Ho 


E _ _nu— __—e— 


Región crítica 
de tamaño Q 


Región crítica 
de tamaño a 


f(z | Ho) 


Za 0 0 Zi—a 


a) Hı: u< po b) Hi :u> po 


FIGURA 9.8 Regiones críticas para hivótesis alternativas unilaterales 


ik 
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TABLA 9.5 Criterios de rechazo para la prueba de hipótesis. con respecto a la media de una 
distribución normal con varianza conocida 


Hipótesis nula - Valor de la estadística de prueba bajo Ha 
X — Po 
Ho: p = mo à s OR Na 
Hipótesis alternativa Criterios de rechazo 
Hr: u £ po Rechazar H, cuando z <= Zan 0 cuandoz > Zi-a/2 
H: u> hu l Rechazar H, cuando z > zia 
Hi: u < uo Rechazar H, cuando z < za 


a la probabilidad de no rechazar un A, falsa, es necesario determinar 


-fo Tua 
B= P(ž< < + Mo u= m> po), 
la que en términos de la normal estándar es 
O Zia 
Vn + Mo T My 
B=P|Z< p= pul. (9.11) 


o/Vn 


Al sustituir cualquier valor p, de la hipótesis alternativa en (9.11), se puede 
calcular el correspondiente valor de la probabilidad del error de tipo II y, de esta 
forma, la potencia. Nótese que £ (y la potencia) dependen del tamaño de la muestra 
n, del tamaño a, del error de tipo 1, de la diferencia (xo — mı) entre el valor pro- 
puesto Mo bajo H, y el verdadero valor mı bajo H,, y de la desviación estándar o 
de la población. Para un valor fijo de a, (uy — yı) y O, el tamaño del error de ti- 
po II disminuye conforme n aumenta. Para valores fijos de n, (Mo — M1) y O, B 
aumenta conforme a disminuye. Y para valores fijos de n, &, y o, B disminuye 
conforme la diferencia (uo — u) aumenta. 

Para otros casos, se pueden desarrollar expresiones similares a (9,11). El 
comportamiento general del tamaño del error de tipo II como una función de n, a, 
(10 — u), y O es igual al anterior. 


Ejemplo 9.6 Los siguientes datos representan los tiempos de armado para 20 unida- 
des seleccionadas aleatoriamente: 9.8, 10.4, 10.6, 9.6, 9.7, 9.9, 10.9, 11.1, 9.6, 10.2, 
10.3, 9.6, 9.9, 11.2, 10.6, 9.8, 10.5, 10.1, 10.5, 9.7. Supóngase que el tiempo necesa- 
rio para armar una unidad es una variable aleatoria normal con media u y desvia- 
ción etándar @ = 0.6 minutos. Con base en esta muestra, ¿existe alguna razón para 
Creer, a un nivel de 0.05, que el tiempo de armado promedio es mayor de 10 minu- 
tos? 
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Considérese la hipótesis nula 
Ho: H= 10 
contra la alternativa 
| H; > 10. 


Si puede rechazarse a H, con a = 0.05, entonces existe una razón para creer que el 
tiempo necesario para armar una unidad es mayor de 10 minutos. Dado que P(Z => 
1.645) = 0.05, el valor crítico en términos de la variable aleatoria normal estándar 
es Zos = 1.645. De los datos de la muestra, el valor X es igual a 10.2 minutos. En- 
tonces 


Dado que z = 1.4907 < Zoss = 1.645, no puede rechazarse la hipótesis nula. El 
valor p en este caso es la probabilidad de que la variable aleatoria normal estándar 
sea mayor o igual al valor de 1.4907, dando como resultado que Ho sea cierta. 
Puede verse, de la tabla D del apéndice, que 


P(Z > 1.4907 | u =' 10) = 0.0681. 


Puesto que p = 0.0681 > a = 0.05, se concluye que con base en la muestra no 
existe la suficiente evidencia para rechazar la hipótesis de que el tiempo promedio 
necesario para armar una unidad es de 10 minutos. 

En el contexto de este ejemplo, supóngase que se desea dar respuesta a la siguien- 
te pregunta. Si el verdadero tiempo promedio necesario para armar una unidad es de 
10.3 minutos, ¿cuál es la probabilidad de rechazar la hipótesis nula? En este caso se 
desea obtener la potencia de la prueba para detectar la falta de veracidad de H, cuan- 
do el valor verdadero es de 10.3 minutos. Primero se obtendrá el tamaño del error de 
tipo II. Mediante el uso de (9.11) se tiene 


LA 100105 
V0 E E E 


0.6/ V20 
= P(Z < -0.59 | u = 10.3) 
= 0.2776. 


p=P|Z< 


De esta forma la probabilidad de equivocarse al rechazar Ho cuando la media es 10.3 
minutos, es igual a 0.2776. Por lo tanto, potencia = 1 — 8B = 0.7224. Si se sigue 
este procedimiento se obtienen $ y las probabilidades de potencia para otros valores 
de u bajo la hipótesis alternativa, tal y como se encuentran resumidos en la tabla 
9.6. Nótese que conforme la diferencia entre el valor propuesto de la media bajo Ho 
y el valor verdadero bajo H, aumenta, la potencia de la prueba también aumenta. 
Supóngase que se tiene la misma situación pero con la excepción de que no se co- 
noce el valor de la varianza poblacional v?.Con base en la sección 8.4.2, la mejor es- 
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TABLA 9.6 Error de tipo II y probabilidades de potencia para el ejemplo 9.6 


H 10.01 10.1 10.2 10.3 10.4 10.5 10.6 10.7 


B 0.9418 0.8159 0.5596 0.2776 0.0901 0.0188 0.0024 0.0002 
Potencia 0.0582 0.1841 0.4404 0.7224 0.9099 0.9812 0.9976 0.9998 


tadística de prueba a utilizar en este caso tiene una distribución £ de Student. Éste es, 
bajo la hipótesis nula Ho: 4 = uo la estadística 


X- Ho 

S/Vn 

tiene una distribución £ de Student con n — 1 grados de libertad. El lector debe tone- 
muy poca dificultad al reconocer que mediante el empleo de la distribución £ de Stu- 
dent, las regiones críticas para este caso son similares a las del caso anterior con res- 


pecto a las hipótesis alternativas uni o bilaterales. En la tabla 9.7 se proporciona un 
resumen. 


T= 


Ejemplo 9.7 Mediante el empleo de los datos del ejemplo 8.9, demostrar que para 
cualquier valor propuesto y para u que se encuentre en el interior de un intervalo 
de confianza del 95%, una prueba de la hipótesis 


Ho: p = o 
contra la alternativa 

H: u $ mw 
no llevará al rechazo de Ha para æ = 0.05. 


Recuérdese la sección 8.4.2 en la que un intervalo del 95% de confianza para uu 
es 500.45-507.05. Es necesario demostrar que los límites 500.45 y 507.05 coinciden 


TABLA 9.7 Criterios de rechazo para probar hipótesis con respecto a la media de una 
distribución normal con varianza desconocida 


Hipótesis nula Valor de la estadística de prueba bajo Ha 
Y- Ho 
Hip = E 
vn: A Ho s/Vn 
Hipótesis alternativa Criterios de rechazo 
H: u $ po Rechazar H, cuando / < t, n- O Cuando? = fi. ani 
H: H, > Ho Rechazar H, cuando t > tioan- 
H u < w Rechazar H, cuando t € tan-t 
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con los límites de los valores propuestos top bajo H, que llevan al rechazo de la hi- 
pótesis nula. Dado que ¥ = 503.75 y s = 6.2 para el límite 500.45 se tiene 


AS gi 
6.2/V16 
y para el límite 507.05 
_ 503.75 — 507.05 _ dai: 


6.2/V16 


Pero los valores +2.131 son los límites de la región crítica bilateral de tamaño a = 
0.05 y 15 grados de libertad. En otras palabras, si pọ < 500.45, entonces 1 > 2.131, 
y si uo >507.05,1 <—2.131. De esta forma, cualquier valor propuesto uy interior 
a 500.45 y 507.05 no llevará al rechazo de Ha con œ = 0.05. 

Para ilustrar el cálculo del valor p en el contexto de este ejemplo, considérese la 
siguiente hipótesis nula 


Ho: u = 508 
contra la alternativa 


H,: u 4 508. 


Dado que el valor propuesto de 508 se encuentra fuera del intervalo de confianza del 
95%, H, será rechazada a un nivel a = 0.05, Para obtener el valor p se calcula el 
valor de la estadística de prueba, el cual es 


PE E g, 


6.2/V16 


Dado que la hipótesis alternativa es bilateral, el valor p está dado por 
P(T| > 2.742) = P(T < -2.742) + P(T > 2.742), 


en donde T es una variable aleatoria t de Student con 15 grados de libertad. En la 
tabla F del apéndice puede observarse que es necesario interpolar entre los valores 
cuantiles tay. ¡s = 2.602 y toos. ıs = 2.947. Entonces tos. 15 = 2.742, y el valor p 
es, en forma aproximada, 0.016. Por lo tanto, si la hipótesis nula es cierta, existe 
una Oportunidad menor del 2% para observar un valor de la distribución £ de Stu- 
dent con 15 grados de libertad cuya magnitud sea igual o mayor al valor observado 
de 2.742. 

La determinación de la potencia y de las probabilidades de los errores de tipo H 
para la estadística T es algo más difícil que en el caso previo, el cual involucraba una 
distribución normal. La dificultad surge debido a que la distribución de la 
estadística de prueba, si H, es falsa, no es exactamente igual a la distribución £ de 
Student. De hecho, bajo la hipótesis alternativa la estadística tiene lo que se conoce 
como una distribución t no central, la cual difiere de la ordinaria £ de Student por la 
introducción de un parámetro adicional. El parámetro, denotado por ô, se define 
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por - 


H Ho 
a 


ô = 


y expresa la diferencia entre el verdadero valor de u bajo H, y el valor propuesto o 
bajo H, en términos de ø. Como resultado se tiene-que la función de potencia de la 
estadistica T depende tanto de los grados de libertad v y de 3. En este caso existen las 
curvas CO como funciones de ô y del tamaño de la muestra n tanto para las hipóte- 
sis alternativas unilaterales como para las bilaterales (véase [1]). Éstas revelan el mis- 
mo comportamiento pára el tamaño del error de tipo II con respecto a n, a, y la 
diferencia entre los valores bajo H, y H, al igual que en el caso previo. Debe notarse 
que para muestras de tamaño relativamente grande, por ejemplo mayor que 30, el 
cálculo de la potencia para la estadística T se puede manejar en forma adecuada me- 
diante el empleo de la aproximación normal. 


9.6.2 Pruebas para dos muestras 


Sean Xi, X2, .... Xn, y Yi, Yo, .... Yn, muestras aleatorias provenientes de dos dis- 

. . . . . . , $ 
tribuciones normales independientes con medias Lx y uy y varianzas 0% y 07, res- 
pectivamente. Supóngase que se desea probar la hipótesis nula 


Ho: tx — My = ò 
contra una de las siguientes alternativas: 
Hi: px — ur F 0 Hi: Mx — My > Oy Hi: Mx — Hy < ôo, 


en donde $, es una cantidad que toma valores positivos o cero y la cual representa la 
diferencia propuesta entre los valores desconocidos de las medias. Supóngase que las 
varianzas de la población se conocen. De las discusiones en las secciones 7.7, 8.4.3 y 
el material precedente de este capítulo, es razonable concluir que la estadística de 
prueba apropiada es la diferencia muestral media X — Y. En particular, si un valor 
de X — Y con base en la muestra aleatoria es lo suficientemente diferente, mayor o 
menor que ô, se rechazará la hipótesis nula dependiendo de la hipótesis alternativa 
en cuestión. Una transformación a la distribución normal estándar da origen a una 
forma equivalente de la prueba estadística dada por (8.41). En la tabla 9.8 se propor- 
ciona un resumen de la información pertinente para este caso. 


Ejemplo 9.8 Supóngase que se tienen muestras aleatorias de igual | tamaño n de dos 
distribuciones normales independientes con varianzas conocidas ax y T}, las cuales 
se emplean para probar la hipótesis nula 


Ho: py — My = ôo 
contra la alternativa 


Hi: ux — Hy = 6, > 8. 
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TABLA 9.8 Criterios de rechazo para la prueba de hipótesis con respecto a las medias de dos 
distribuciones normales e independientes con varianzas conocidas 


Hipótesis nula Valor de la estadística de prueba bajo H, 
3 P x—Y-—Ó6 
Ho: tx — Uy = 60 Ja 
Ax "Ny 
Hipótesis alternativa Criterios de rechazo 
Hi: ux — Uy A 0 Rechazar H, cuando z < Zan 0 cuandoz > Z-a 
Hs: ux — My > & Rechazar H, cuando z > Z-a 
Hi: px — Hy < 8, Rechazar H, cuando z = z, 


Si se especifican los tamaños particulares œ y 8 de los errores de tipo 1 y de tipo 1l, 
respectivamente, obtener una expresión para n. 

Si A, es realmente cierta, la probabilidad de rechazarla es œ; y si Ho es falsa 
(ux — My = 8, > 8p), la probabilidad de no rechazar H, es £. Sea cy el valor crítico 
¿con respecto a la distribución de muestreo de X — Y. Entonces Ho será rechazada 
cuando Y — y > Cp, tal que 


PÈ — Y> Col ux — y = ô) = a. 


En términos de la variable aleatoria normal estándar, lo anterior es equivalente a 


Co — ĉo 


A Mx — Hr = ĉo 
ya 
n 


P| Z = 


Dado que pueden determinarse valores cuantiles z,_. de la normal entándar tales 
que 


PZ>2-.)=0, 
se tiene 


Co — Ôo 
a —= = PEA 
JE + gy 

n 


Si uy — uy = ĝ, > ô, entonces la probabilidad de no rechazar a H, es 8. Por 
lo tanto 


(9.12) 


P(X - Y< col ux — Hy = 8) = B, 
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que en términos de-la variable normal estándar es 


-Co- 8 


-caa = g. i 
Jo} + o} 
n> 


Pero el valor cuantil zę debe ser un punto de la normal estándar tal que 


PZ< 


l P(Z < za) = B. 
Entonces se sigue que 
zo = zg. (9.13) 
Ja + Ey 
y a 


Debe notarse que puesto que es poco probable que 8 sea menor que 0.95, el valor 
cuantil z¿ es negativo. ` 


Nótese que las ecuaciones (9.12) y (9.13) contienen dos incógnitas: cọ y n. Para 
resolver para n, primero se resolverán ambas ecuaciones para co. 


2 2 
oyto 
Co = dia] EE + ôo, 
n 


+e 
aaa a +8. 
n 


Al igualar ambos miembros derechos, se tiene 


Dado que para la normal estándar — 23 = Z1-pg» 


o} + T} 
y (Ziza + i-p) = õi — ôo. 


n 
la cual, después de resolver para n, se reduce a 


TAE (ok + Y (zia + a (9.14) 


(3, — 80) 


La expresión (9.14) determina el tamaño de cada una de las dos muestras aleato- 
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rias en las dos distribuciones normales independientes, asegurando probabilidades œ 
y f para los errores de tipo I y tipo II, respectivamente, cuando se prueba 


Ho: Hx — My = 09 i 
contra 
Hi: Hx — Hy = 6, > 09. 


Para un ejemplo específico, sean og = 25,04 = 20, & = 5, & = 8, œa = 0.05, 
y B = 0.10. Entonces Zoss = 1.645, Zo% = 1.28, y 


„n = (25 + 2011.645 + 1.28 


(8 — Sy 1 


Se invita al lector a que obtenga una expresión similar para la hipótesis alternati- 
va del lado izquierdo. Para una hipótesis alternativa bilateral, es posible obtener una 
aproximación del tamaño de n mediante el empleo de la expresión (9.14) y reempla- 
zando a con a/2. A pesar de que este enfoque no es exacto, para muchas situaciones 
prácticas es suficiente. 

A continuación se examinará el caso en el que el valor de la varianza no se cono- 
ce; si las varianzas o% y o% no se conocen pero se supone que son iguales, entonces 
para la hipótesis nula 


Ho: Mx — My = Oy 
la estadística de prueba es 


cl A (9.15) 


l l 
S, dd ies 


Hx Ny 
la cual tiene una distribución de Student con ny + ny — 2 grados de libertad. El 
estimador combinado Se de la varianza común o” está dado por la expresión (7.28). 
De las discusiones anteriores, las regiones críticas de tamaño a para las hipótesis al- 
ternativas uni y bilateral, deben ser evidentes. Estas se encuentran resumidas en la 
tabla 9.9. 


Ejemplo 9.9 En forma reciente se ha incrementado el interés de evaluar el efecto 
del ruido sobre la habilidad de las personas para llevar a cabo una determinada tarea. 
Un investigador diseña un experimento en el que se pedirá a un determinado número 
de sujetos que lleven a cabo una tarea especifica en un medio controlado y bajo dos 
niveles diferentes de ruido de fondo. El investigador selecciona 32 personas que son 
capaces de realizar la misma tarea y de manera práctica en el mismo tiempo. Del 
total de personas, 16 seleccionadas al azar realizarán esta tarea bajo un nivel modes- 
to de ruido de fondo. Las restantes 16 llevarán a cabo la misma tarea bajo un ruido 
de nivel 2, el cual es más severo que el ruido de nivel 1. Los siguientes datos represen- 
tan los tiempos observados (en minutos) que fueron necesarios para completar la ta- 
rea para cada una de las 16 personas de cada nivel. 
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TABLA 9.9 Criterios de rechazo para la prueba de hipótesis con respecto a las medias de dos 
distribuciones normales e independientes con varianzas iguales pero desconocidas 


Hipótesis nula ] Valor de la estadística de prueba bajo H, 
Nx t= E Sr y = ĉo 
Ho: Mx = My = Ós ` ; || l 
EN ias a 
nx My 
Hipótesis alternativa Criterios de rechazo 
Hi px — y $ 0 Rechazar Ho cuando 1 < tum O Cuando! > fi.» 
en dondem = nx + ny — 2 
Hi: yx — My > & Rechazar H, cuando f > l-an 
Hi: fx — Hy < Ón Rechazar H, cuando í $ ta.n 


Nivel 1 | 14 12 15 15 11 16 17 R 14 13 18 13 18 15 16 Il 
Nivel 2 120 22 18 18 19 15 18 15 22 18 19 15 2) 22 18 16 
Asumiendo que estos datos constituyen muestras aleatorias de dos distribuciones 
normales e independientes con varianzas iguales pero no conocidas, ¿existe alguna 


razón para creer que el tiempo promedio para el nivel 2 es mayor por más de dos mi- 
nutos que para el nivel 1 con a = 0.01? 


Sean u, y 112 las medias desconocidas para los niveles 1 y 2 respectivamente. El 
valor propuesto para la diferencia entre u y 4, es 8, = 2. En otras palabras, se 
afirma que el valor de u, es mayor que u, por una cantidad igual a dos minutos; 
pero en realidad lo que se desea demostrar es que u, es más grande que u, por más 
de dos minutos. De acuerdo con lo anterior, considérese la hipótesis nula 


Ho: p? = Mm = 2 
contra la alternativa 
H p m1>2. 


Dado que a = 0.01 y n, = n, = 16, el valor crítico es toy 3) = 2.457. De los 
datos se tiene que X, = 14.375, X, = 18.5, s, = 2.2767, y sı = 2.4495; por lo que el 
estimado combinado de la varianza común es 


2 (151Q.2767y + 15(2.4495) 


= 5.5917, 
Sp l6 + 16 -2 3 


Sp = 2.3647. 
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Entonces el valor de la estadística de prueba es 


E (18.5 — 14.375) — 2 = 2.5417. 


Dado que el valor de 2.5417 se encuentra dentro de la región crítica de tamaño 0.01, 
se rechaza la hipótesis nula. Bajo Ho, el valor p es la probabilidad de que T = 2.5417, en 
donde T ~ 1 de Student con 30 grados de libertad. Mediante el empleo de la tabla F del 
apéndice y después de interpolar, se obtiene que 


P(T = 2.5417) = 0.0085. 


Por lo tanto, con base en este experimento, puede concluirse que la diferencia entre 
las medias de los niveles 1 y 2 es mayor de dos minutos estadísticamente discernible 
con valor p de 0.0085 


9.6.3 Reflexión sobre ¡as suposiciones y sensitividad 


Antes de pasar a la siguiente sección, puede ser benéfico el detenerse un momento y 
reflexionar sobre las suposiciones que se han formulado con respecto a las pruebas 
de hipótesis estadísticas sobre las medias. Se ha hecho énfasis con anterioridad, en 
que los procedimientos inferenciales estadísticos proporcionan un camino objetivo y 
veraz para formular inferencias con respecto a las características de la población con 
base en muestras aleatorias. Estos procesos por lo general tienen éxito sólo cuando 
las suposiciones que se han formulado para el desarrollo de las distribuciones de 
muestreo apropiadas se adhieren en forma razonable a la población. Los enfoques 
fortuitos y casuales para la aplicación de los métodos estadísticos, sin una compren- 
sión de sus suposiciones y de las posibles consecuencias si éstas no se satisfacen, 
muchas veces lleva a una mala interpretación y a conclusiones erróneas. 

Como ya se ha visto, la distribución f de Student juega un papel muy importante 
para formular inferencias con respecto a las medias, en forma especial en muestras 
de tamaño modesto. Pero la distribución f se basa en la suposición de que el 
muestreo se lleva a cabo sobre una distribución normal. Si el muestreo no se lleva a 
efecto sobre una distribución normal, el uso de la distribución f de Student es inco- 
rrecto debido a que, por ejemplo, las regiones críticas de tamaño « son probable- 
mente más grandes que el valor que se especifica para aœ. Sin embargo, en forma 
afortunada, la distribución ? es muy robusta, o insensible a la suposición de normali- 
dad, y en forma especial cuando el tamaño de la muestra es mayor o igual a 15. 

Cuando se emplea la distribución £ de Student para comparar dos medias, es 
mucho más severo violar la suposición de varianzas iguales que la suposición de nor- 
malidad. Por una razón intuitiva del efecto aparente, supóngase que en realidad se 
están muestreando dos distribuciones normales, una con media 4 = 100 y desvia- 
ción estándar o = 20, y la otraconm = 120 y ø = 30. El intervalo cuatro sigma 
de la primera es de 60 a 140 mientras que para la segunda es de 60 a 180. Por lo tan- 
to, puede observarse un valor menor o igual a 140 en cualquiera de las dos pobla- 
ciones. Sin embargo, estos valores no implicarán que exista una diferencia entre 
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las dos medias. Únicamente las observaciones de una segunda muestra que 

- sean mayores de 140 empezarían a sugerir una diferencia media aparente, pero su 

. número es probablemente demasiado pequeño para hacer la diferencia entre las me- 
dias discernibles. De esta forma, con base en la estadística T es probable que se lle- 
gue a la conclusión equivocada de que no existe diferencia entre las medias con una 
frecuencia inaceptable debida al desbalance en la variación inherente de las dos dis- 
tribuciones. 

Para cuantificar el efecto de varianzas desiguales se simularon 1 000 muestras 
aleatorias, cada una de tamaño 20 a partir de dos distribuciones normales mediante 
el empleo de paquete IMSL. Para la primera distribución se escogieron los valores 
de la media y de la desviación estándar iguales a 100 y 20, respectivamente. Para la 
segunda se emplearon los valores de 110, 120 y 130 para la media, y los valores de 
25, 30 y 40 para la desviación estándar. De acuerdo con lo anterior se simularon 12 
casos donde para cada par de muestras aleatorias se probó la hipótesis 


Ho: py -m=0 
contra la alternativa 
Hi: py -,<0 


mediante el uso de la estadística T de Student dada por (9.15). Para cada caso se 
determinó el número, de entre 1 000 ensayos, para el que la hipótesis nula no podía 
rechazarse con œ =-0.05. De esta forma es posible comparar el tamaño del error 
de tipo II para cada caso contra el valor correspondiente que puede obtenerse de las 
curvas CO en [1], cuando ambas desviaciones estándar tienen un valor igual a 20. Las 
probabilidades para el error de tipo II se dan en la tabla 9.10. Cuando se comparan los 
valores $ para varianzas iguales, existe un incremento apreciable en el tamaño del 
error de tipo II conforme la diferencia entre las varianzas es más pronunciada. Por lo 
tanto, el efecto de violar la suposición de varianzas iguales cuando se comparan las 
medias puede ser sustancial. 


Ahora se examinará el efecto en el tamaño del error de tipo 1 si se viola la suposi- 
ción de varianzas iguales. Esto es, si se supone que HH, es cierta, ¿qué efecto pueden 
tener las varianzas desiguales sobre æa? Scheffé [4] determinó que si los tamaños de 
las muestras 7, y n, son grandes pero iguales, la estadística T es considerablemente 
más robusta a la suposición de varianzas iguales cuando se comparan dos medias. 
La tabla 9.11 (véase [43 para los detalles) contiene el tamaño del error de tipo I con 


TABLA 9.10 Probabilidades 8 simuladas para el efecto de varianzas desiguales cuando se 
comparan dos medias (u, = 100, a, = 20) 


T, = 20 ga, = 25 a» = 30 a, = 40 
po = 110 0.550 0.626 0.687 0.758 
u = 120 0.065 0.139 0.209 0.389 
u = 130 0.002 0.008 0.021 0.093 
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TABLA 9,11 Probabilidades «œ para el efecto de varianzas desiguales cuando se comparan 
dos medias 


7/05 
1/5 1/2 l 2 $ 
l 0.050 0.050 0.050 0.050 - 0.050 
n/m 2 0.120 0.080 0.050 0.029 0.014 
$ 0.220 0.120 0.050 0.014 0.002 


base en un intervalo de confianza del 95% para 4, — M2 como una función del co- 
ciente de los dos tamaños muestrales y el cociente de las dos varianzas. Nótese que el 
tamaño del error de tipo I no cambia en el primer renglón con respecto a su valor 
preestablecido de 0.05, aun a pesar de que el cociente de las varianzas cambie. 

A través de toda la discusión de la inferencia estadística se ha supuesto que se ob- 
tiene una muestra aleatoria y que por lo tanto las observaciones se encuentran inde- 
pendientemente distribuidas. Si estas suposiciones no se cumplen, es probable que 
cualquier inferencia estadística que se formule sea errónea sin importar el tamaño de 
la muestra. Aún así, la suposición que, en forma probable, es la que se viola, la ma- 
yoría de las veces es la de una muestra aleatoria. 

Relacionado en forma cercana al concepto de aleatoriedad, es la selección de la 
muestra cuando las medias de los dos niveles (o más, como se estudiará mas adelan- 
te) se comparan entre sí. Con propósitos de ilustración, recuérdese el ejemplo 9.9. 
Dado que se seleccionaron 16 personas aleatoriamente para desempeñar la tarea 
dada bajo el nivel 1, se deduce que las personas que realizaron la tarea en el nivel 2 
también fueron seleccionadas de manera aleatoria. Este procedimiento asegura una 
asignación imparcial de cuáles de las 32 personas se encontrarán sujetas a un deter- 
minado nivel de ruido. En inferencia estadística este proceso de selección imparcial 
recibe el nombre de aleatorización. El principio de aleatorización protege contra la 
introducción de sesgo sistemático en la asignación de personas u objetos a diferentes 
niveles y por ello consolida la credibilidad de la inminente comparación. 

Se ha visto cómo las diferencias inherentes en la variabilidad pueden oscurecer la 
comparación entre dos medias. Muchas veces, durante el proceso de observar datos 
muestrales, factores externos no controlados pueden causar diferencias en la varia- 
bilidad. Sin embargo, mediante la adhesión al principio de aleatorización, estos fac- 
tores externos probablemente tengan un efecto balanceado sobre las mediciones 
bajo los dos niveles de interés. Por ejemplo, en el problema del ruido, factores tales 
como el estado de ánimo del individuo en el momento de realizar la tarea no pueden 
ser controlados. El principio de aleatorización tiende a neutralizar tales efectos. 


9.6.4 Prueba sobre las medias cuando las observaciones están pareadas 


De la última sección recuérdese que cuando se comparan las medias de dos niveles, 
es deseable tener a las personas u objetos que producirán las observaciones dentro de 
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cada nivel, tan homogéneas como sea posible. Si existe un efecto debido a factores 
externos, éstos pueden neutralizarse mediante la aplicación del principio de aleatori- 
zación. También es posible controlar la variación no deseada controlando los facto- 
res extraños. Esto se logra tomando las observaciones en pares, donde se supone que 
las condiciones externas son las mismas para cada par pero pueden variar de par 
en par. En forma general, existe una relación natural entre las observaciones de un 
par. Esto. es, para cada par se selecciona una persona'u objeto al azar y se somete a 
ambos niveles de interés. A pesar de que se desea determinar si existe alguna diferen- 
cia entre las medias, no puede considerarse a los pares como dos muestras aleatorias 
independientes. 

Como ilustración, se examinará el siguiente problema: un investigador médico se 
interesa en determinar si un fármaco experimental tiene el efecto colateral no desea- 
ble de elevar la presión sistólica sanguínea. Para conducir un estudio de amplia co- 
bertura se seleccionan en forma aleatoria n personas de diferentes edades y condicio- 
nes de salud. En un ambiente controlado de labora.or:u se toma la presión sangui- 
nea de los n sujetos y se les dministra el fármaco durante un lapso adecuado de 
tiempo después del cual se les vuelve a tomar la presión sanguínea. 

Seàn (X,, Yi), (X.Y), ..., (Xn, Y, ) los n pares, donde (X;, Y,) denota la pre- 
sión sistólica sanguínea del ¿-ésimo sujeto antes y después de adiministrar el medica- 
mento. Nótese que en este caso los factores externos son la condición del individuo 
en relación con su edad, su salud y otras pecualiaridades que pueden tener un efecto 
único sobre la presión sanguínea. Puesto que cada sujeto forma un par, el efecto de 
los factores externos sobre la presión sanguínea se encuentra entre los pares y cual- 
quier diferencia sustancial de la presión dentro de cada par puede atribuirse al efec- 
to de la droga. Así, al tomar la diferencia entre las dos observaciones de cada par es 
posible remover (bloquear) la variabilidad en la presión sanguínea a consecuencia de 
los factores externos. Esto hace posible una comparación válida de la presión sanguí- 
nea antes y después de administrar el medicametno. Por lo tanto, el interés se centra 
en la columna de diferencias de la tabla 9.12 generada al restar una observación de la 
otra para cada par. 

Se supone que las diferencias. D,,D,,..., D, constituyen variables aleatorias in- 
dependientes distribuidas normales tales que E(D,) = up y Var(D) = cù para 
toda í = 1,2, ..., n. Lo anterior es posible si se supone independencia entre los pa- 


TABLA 9.12 Diferencias entre las observaciones en un experimento 


Número de par Nivel 1 Nivel 2 Diferencia 
(persona) (PS antes) (PS después) Y - Xx* 

| X l Y, D 10 Y, =X ' 

2 X> Y, D,= Y, -X 

n s X, Y, D = Y, - Xa 


* Puede tomarse fácilmente la diferencia X — Y. 
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res (pero no necesariamente entre los valores de éstos) de manera tal que E(X;) = p; 
y E(Y) = u; + up parai = 1,2... n. De esta forma para el ¡-ésimo par, los valo- 
res esperados difieren por una constante, la cual es el valor esperado de BD, parai = 
1, 2... n. Además, Var(X;) = oí y Var(Y;) = o} son desconocidas y no necesa- 
riamente iguales, pero se supone que son constantes para toda į = 1, 2, ..., n. 

+ En el contexto del problema de la presión sanguínea, lo que se está diciendo es lo 
siguiente: la constante 4p es la diferencia media en la presión sanguínea como con- 
secuencia del medicamento. Aun a pesar de que las presiones sanguíneas promedio 
varían de persona a persona por las diferencias en las condiciones de salud, se piensa 
que Mp es probablemente igual para todas las personas. Nótese que si up fuese 
cero, esto podría sugerir que el medicamento no tiene ningún efecto sobre la presión 
sanguínea. Por otro lado, si 4p es mayor que cero, esto podría indicar un incremen- 
to de la presión sanguínea promedio a consecuencia del medicamento. La varianza 
a) de las diferencias en la presión sanguínea no es conocida y depende de las varian- 
zas antes y después de administrarse el medicamer+to. A pesar de que las varianzas 
dí y a; pueden ser diferentes, se supone que son constantes de persona a persona. 

La discusión anterior demuestra que se pueden formular inferencias sobre las 
medias de dos niveles cuando las observaciones están pareadas al considerar la co- 
lumna de diferencias como una sola variable aleatoria y al aplicar los métodos de la 
sección 9.6.1. Bajo la hipótesis nula ] 


Ho: Mp = Sp, 
la estadística 
pa 20 (9.16) 
Sp/Vn 


tiene una distribución f de Student con n — 1 grados de libertad, en donde 


D = 5 D;/n 
i=1 


S$ = Y (D, - DY'/(n — 1). 
i=l 


Las regiones críticas de tamaño « para las hipótesis alternativas uni y bilaterales se 
encuentran resumidas en la tabla 9.13. 


Ejemplo 9.10 En el problema anterior de la presión sanguínea, sea œ = 0.01 y 
pruébese la hipótesis nula 


Ho: pp =0 
contra la alternativa 


H;: Hp > 0, 
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TABLA 9.13 Criterios de rechazo para la prueba de hipótesis con respecto a las medias 
cuando las observaciones están pareadas 


Hipótesis nula Valor de la estadística de prueba bajo H, 
~ Ho: pp = & y t=- ZÀ 
> ` Sal Vn 
Hipótesis alternativa Criterios de rechazo 
Hi: Hp £ ôo Rechazar Ho cuando t © tan. n-1 
o cuando t > ti-a/2,n-1 
HH: hp > $ Rechazar Ho cuando t > ti-a. n-1 
H: up < ®& > Rechazar H, cuando t © ta n-i 


con base en los datos muestrales de la tabla 9.14. 


En la columna de diferencias se tiene que d = 3.75 y sp = 3.7929. De esta 
forma el valor de la estadistica de prueba es 


t= 3750 = 3.425. 
3.7929/Y/ 12 
Dado que el valor crítico es tos, y = 2.718, se rechaza la hipótesis nula de no efecto 


del medicamento. Por lo tanto, con base en los resultados de este estudio, un incre- 
mento en el valor promedio de la presión sanguínea es estadísticamente discernible 
con un valor p de 0.0036. 

Es importante notar que en el ejemplo anterior no existe ninguna oportunidad de 
aplicar el principio de aleatorización para remover los posibles sesgos sistemáticos. 


TABLA 9.14 Datos muestrales para el ejemplo 9.10 


PS PS Diferencias 
Sujeto antes después (después — antes) 
1 128 134 6 
2 176 174 2 
3 110 118 8 
4 149 152 3 
5 183 187 4 
6 136 136 0 
7 118 125 7 
8 158 168 10 
9 150 152 2 
10 130 128 -2 
H i 126 130 4 
12 162 167 5 
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Lo anterior es típico de las situaciones antes-después en las que las observaciones se 
aparean con el propósito de remover efectos externos. Sin embargo, es posible que 
intervengan otros factores externos entre las mediciones y que éstos causen diferen- 
cias sustanciales en las observaciones de algunos pares; esta influencia será acredita- 
da de manera equivocada a los efectos que se están verificando. En el problema de la 
presión sanguínea algunos de los sujetos pueden sufrir cambios en su salud que sean 
independientes del medicamento que se les administra, y estos cambios pueden a su 
vez causar un aumento (o disminución) de la presión sanguínea. El siguiente ejemplo 
proporciona un experimento mejor para comparar dos medias para observaciones 
pareadas. 


Ejemplo 9.11 La investigación ha desarrollado variedades superiores de maíz que 
proporcionarán cantidades más grandes de éste por unidad de tierra. Un investiga- 
dor ha desarrollado una nueva variedad híbrida de este grano y piensa que es supe- 
rior a la mejor variedad disponible. También cree que esta nueva variedad rebasará 
con mucho la producción estándar en varias localidades geográficas. Para verificar 
lo anterior, el investigador diseña el siguiente experimento: se seleccionan 10 parce- 
las de igual tamaño cada una en distinta localidad geográfica. Cada parcela se divide 
en dos secciones iguales, de manera tal que puedan cultivarse las dos variedades en 
cada localidad. Para remover los posibles sesgos sistemáticos, se aplica el principio 
de aleatorización a todas las parcelas para decidir qué sección es la que se cultiva y 
con qué tipo de variedad. Lo anterior se logra.lanzando una moneda para decidir la 
variedad. Se controlan tantos factores como es posible; por ejemplo, la temporada 
de siembra, el tipo de fertilizante y el intervalo de aplicación. En el momento de re- 
coger la cosecha, se anotan las toneladas por unidad de área. Supóngase que los da- 
tos que se muestran en la tabla 9.15 son los que se observaron. Con base en estos 
datos, obténgase un intervalo de confianza del 95% para la diferencia media en la 
producción entre las variedades X y Y. 


Antes de proceder con el análisis, debe notarse que se están bloqueando los fac- 
tores externos como resultado del apareamiento en la localidad geográfica. En situa- 
ciones de este tipo, existe muy poca duda con respecto a que las condiciones de la 
tierra y otros efectos probablemente no sean los mismos en las diferentes localida- 
des. De esta forma existe una gran oportunidad para observar un efecto sustancial 
sobre la producción a consecuencia de la localidad. También, nótese que esta oportu- 
nidad se presenta al aleatorizar la asignación de variedades a las parcelas para remo- 
ver cualquier sesgo sistemático. 


TABLA 9.15 Datos muestrales para el ejemplo 9.11 


Tipo Li L, L, L, L; e L- Ly Ly Lo 
Variedad X 23 35 29 42 33 19 37 24 35 26 
(estándar ) 
Variedad Y 26 39 35 40 38 24 36 27 4] 27 
(nueva) 


Al 
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Para obtener el intervalo de confianza deseado, las diferencias 2 las gor 
ciones de X y Y en las 10 localidades son —3, —4, —6, 2, — 5, -3, 
-1. Con base en éstas, d =.—3 y sp = 2.8284. Asumiendo que pen aa, 
son los valores de dos variables aleatorias independientes y normalmente distribui- 
das, un intervalo de confianza del 95% para up es 


Sp `N 


E lo915.977=»> 
"3/10 


al 


N 


—3 + (2.262X(2.8284/ V10), 


el que se reduce al intervalo (-— 5.0232, — 0.9768). Dado que el valor cero no se in- 
cluye en este intervalo, se rechaza la correspondiente hipótesis nula de que la dife- 
rencia es cero a un nivel de æ = 0.05 

Re.ult- apropiado colocar el problema de comparar las medias de dos niveles 
en una mejor perspectiva para justificar la planeación de un experimento con base en 
muestras independientes o con base en muestras pareadas. Sean X y Y los dos nive- 
les de interés, asumiendo un tamaño n igual para las dos muestras independientes y n 
pares de observaciones. Dado que lo que se desea en cualquiera de los casos es una 
inferencia con TS a la diferencia entre las medias, la estadística para ambos 
casos es X — Y. De esta manera, bajo la suposición de que se muestrean distribucio- 
nes normales un intervalo de confianza del 100(1 — a)% para la diferencia 
media en cualquiera de los casos es de la forma general 


(X a Y) Ł Uan. m d.e.(X na Y). (9.17) 


donde m es el número de grados de libertad. En la expresión (9.17) existen dos térmi- 
nos que difieren en ambos casos. Uno es el valor cuantil f, _,,»,,; y el otro es la des- 
viación estándar de la estadística X — Y. Cuando las observaciones son pareadas, el 
valor cuantil es una función de m = n — 1 grados de libertad, mientras que para 
muestras independientes se basa en m = ?(n — 1) grados de libertad. Para un a 
dado, el valor cuantil aumenta conforme el número de grados de libertad disminuye. 
Entonces, un intervalo de confianza para muestras pareadas es más amplio debido a 
la pérdida de grados de libertad. 

A la luz de la información anterior, la desviación estándar de X — Y secon- 
vierte en un cambio a mantener en mente cuando se escoge entre muestras indepen- 
dientes o muestras pareadas. Si se permite a un factor extraño, el cual influye en forma 
potencial que varie, cuando se toman las muestras independientes, la consecuen- 
cia probable es una variabilidad importante entre las observaciones, dando como 
consecuencia un valor grande d.e. (Y — Y). Al parear las observaciones, es posible 
neutralizar la influencia del factor extraño y mantener su efecto igual dentro de 
cada par. Entonces, las observaciones dentro de cada par estarán probablemente co- 
rrelacionadas. Esto es, para un par dado, es probable que un valor grande de X dé 
como resultado un valor grande de Y o viceversa, lo cual da como resultado una co- 
varianza positiva entre X y Y. Se sigue entonces que, dado Vur(X - Y)= Vart X) 

+ VartY)— 2Cov(X. Y), la varianza de X — Y (así como también lade X - Y) 
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será más pequeña para muestras pareadas que para muestras independientes. Por lo 
tanto, en un experimento bien planeado para observaciones pareadas, la reducción 
en el valor de la desviación estándar de X —- Y, por lo general compensará el 
aumento en el valor crítico debido a la reducción en el número de grados de libertad. 

Como ilustración, en el ejemplo 9.11 se calculó el estimador sp = 2.8284. Si los 
datos se consideran como muestras independientes de dos distribuciones normales 
con varianzas iguales, un estimado de la varianza común es : 


z _ 9(52.6778) + 9(43.1222) 


= 47.9, 
p 18 ? 


O S, = 6.921el valor s, = 6.921 es más del doble del valor sp = 2.8284. Al cons- 
truir un intervalo de confianza del 95% para muestras independientes, se obtiene 


l 1 
—3 + (2.101)(6.921) 10 + T 


(- 9.5029, 3.5029). 


El obvio que no puede rechazarse la hipótesis nula de no diferencia entre las medias, 
si los datos fuesen considerados como muestras independientes. 


9.7 Pruebas de hipótesis con respecto a las varianzas cuando se 
muestrean distribuciones normales 


Se argumentó con anterioridad, que una inferencia con respecto a una varianza es tan 
importante como una con respecto a la media. En medios industriales, por ejemplo, 
la variabilidad de un producto puede ser una medida más importante que el prome- 
dio del producto. Por esta razón, así como también por la necesidad de comprobar 
la hipótesis de varianzas iguales, se presentarán criterios para probar hipótesis con 
respecto a las varianzas con base en una sola muestra aleatoria o con base en dos 
muestras aleatorias independientes provenientes de distribuciones normales. Como 
era de esperarse, los criterios para probar hipótesis con respecto a las varianzas se 
basan en los correspondientes métodos para construir intervalos de confianza, tal 
como se descutió en las secciones 8.4.4. y 8.4.5. Nuevamente es imperativo hacer én- 
fasis en que estos procedimientos son, en forma especial, sensibles a la suposición de 
normalidad. 


9.7.1 Puebas para una muestra 


Sea X,, X2, ..., X, una muestra aleatoria de una distribución normal con media 4 
desconocida y varianza o? desconocida. Considérese nula la prueba de la siguiente 
hipótesis 


2 2 
Ho: o = go 
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contra una de las siguientes alternativas 
Ho? 4 07, H: o? >å, H,:0?<dí, 

donde di es el valor propuesto para o”. La estadística de interés es.la varianza 
muestral S?. La hipótesis nula será rechazada si la realización de $? calculada a par- 
tir de la muestra, es, en forma suficiente, diferente, mayor que o menor que ai, de- 
pendiendo de la hipótesis alternativa. Pero bajo Ho, la cantidad (n — 1)s*/0% es un 
valor de una variable aleatoria chi-cuadrada con n — 1 grados de libertad. Entonces, 
por ejemplo, si la hipótesis alternativa es H,: o? > ai, se rechazará a Ho si el 
valor de {n — 1)s*/0% se encuentra dentro de la región crítica de tamaño a en el la- 
do derecho de la distribución chi-cuadrada con n — 1 grados de libertad. En la tabla 
9.16 se proporciona la información más relevante al respecto. 

Como se notó con anterioridad, la violación de la suposición de que el muestreo 
selleva a cabo sobre una distribución normal tiene un efecto sustancial cuando se 
emplea la estadística chi-cuadrada para inferencias con respecto a las varianzas. 
Para ilustrar este efecto, se simuló un experimento similar al descrito en la sección 
8.4.3. Para un tamaño de la muestra n = 30, se generaron 1 000 muestras aleatorias 
para cada una de las siguientes distribuciones: uniforme, exponencial y gama. Los 
valores de los parámetros de cada distribución se seleccionaron en cada caso para 
proporcionar una varianza de 100. Para cada muestra aleatoria se probó la hipótesis 
nula 


Ho: a? = 100 
contra la alternativa 
H,: a? > 100, 


mediante el empleo de la estadística chi-cuadrada con œ = 0.05. Para cada distri- 
bución se contó el número de veces para las que se rechazaba la hipótesis nula. Los 
resultados se encuentran en la tabla 9.17. 

Dado que a = 0.05 representa la probabilidad de rechazar una hipótesis cierta 
(tal cual es el caso aquí), se espera que 50 de las 1 000 muestras proporcionen esta de- 


TABLA 9.16 Criterios de rechazo para la prueba de hipótesis con respecto a la varianza de 
una distribución normal con media desconocida 


Hipótesis nula Valor de la estadística de prueba bajo He 
Hi: a? = 05 x= PEI 2 
To 
Hipótesis alternativa Criterios de rechazo 
H: o? 4 dí Rechazar H, cuando x° > Xi-a/2. p-1. O cuando X? © Xan. n-) 
H: o? > 0 Rechazar Ho cuando X° > X-a n-i 
H: g? < y? Rechazar Ho cuando x° < x}. „1 


AAA EEA E E A EEEE E 
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TABLA 9.17 Número de rechazos de la hipótesis nula de entre 1 000 muestras para tres 
distribuciones de igual varianza 


Tipo de distribución y valores de los parámetros 


Uniforme Gama Les Exponencial 
(0, y 1200). . Forma = 2; Escala= Y/50 Media = 10 
8 107 156 


cisión cuando se muestree una distribución normal. Sin embargo, con base en los re- 
sultados existe una discrepancia suficiente para creer que la estadística chi-cuadrada es 
sensible a la suposición de que el muestreo se lleva a cabo sobre una distribución nor- 
mal. No está por demás notar que los resultados del estudio de simulación son de al- 
guna manera predecibles, especialmente si se comparan los factures de forma de las 
distribuciones seleccionadas con los de la distribución normal. La distribución uni- 
forme es simétrica, al igual que la normal, pero se encuentra definida en el intervalo 
(0, Y 1200). Como consecuencia, la verosimilitud disminuye porque algunas 
muestras pueden contener valores extremos que pueden aumentar el valor de la va- 
rianza muestral. Así, el número de rechazos es menor que el que se espera. La distri- 
bución exponencial es la que tiene una mayor asimetría de entre las tres distribu- 
ciones seleccionadas y el mayor valor de curtosis. Por lo tanto, no es sorprendente 
que el número de rechazos sea mucho más grande que el correspondiente a una dis- 
tribución normal. La distribución gama, con parámetros de forma y escala iguales a 
2 y V50, respectivamente, se encuentra entre las anteriores ya que su coeficiente de 
asimetría es V2 y su curtosis relativa es 6. 


9.7.2 Pruebas para dos muestras 


Sean Xy, X),..., Xn y Ye Y,,..., Yn, dos muestras aleatorias de dos distribucio- 
nes normales independientes con medias desconocidas My y uy y varianzas desco- 
nocidas oz y øo}. Considérese la prueba de la siguiente hipótesis nula 


Ho: o} = 0% 
contra una de las siguientes alternativas: 
Hitos H o> o}. H: oł < o}. 


Las estadísticas de interés son las varianzas muestrales $; y $}. Por ejemplo, con 
respecto a la hipótesis alternativa bilateral, puede rechazarse la hipótesis nula si el 
estimador sí es lo suficientemente diferente del estimador s}. De la sección 7.8, 
recuérdese que por virtud de la independencia, las cantidades (1, — 1Si/0; y (y 
- 1)55/05 son dos variables aleatorias independientes chi-cuadrada con ny — ! 
y ny — | grados de libertad, respectivamente. Entonces se sigue la estadística 


Si/03 


F= A 
S;/0; 
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tiene una distribución F con ny — ly ny — 1 grados de libertad. Pero bajo la hi- 
pótesis nula, a = dy; de esta forma la estadística se reduce a 

F = Si/Sí. . 
Para una hipótesis alternativa bilateral y un tamaño « del error de tipo I, se 
rechazará la hipótesis nula cuando f = si/si Œ fi-ajzn-1.ny-1 O cuando 
f <1Yfiza/ nv-1. nv-1- En la tabla 9.18 se proporciona un resumen completo de 
los criterios de rechazo. 

Como ilustración, recuérdese que en el ejemplo 9.9, se asumió que las varianzas 
eran iguales al comparar las medias para los dos niveles de ruido. Para verificar la 
validez de esta suposición a un nivel de a = 0.1, supóngase que se prueba la hipóte- 
sis 


E PA 2 
H: 0i = 0 
contra la alternativa 
H: o? £ o}. 
Se observa que los valores críticos, izquierdo y derecho, son fays. ¡5 ¡5 = 2.40 Y 


l/foos. 15.15 = 1/2.40 = 0.42, respectivamente. Con base en los datos de la muestra 
si = 5.1833 y s} = 6.0. De esta forma el valor de la estadística de prueba es 


f = 5.1833/6 = 0.8639. 
Dado que f = 0.8639 no es ni mayor ni igual a 2.4, ni menor o igual a 0.42, no es 
posible rechazar la hipótesis nula. De acuerdo con lo anterior, los resultados muestra- 


les no proporcionan una razón válida para sospechar que está siendo violada la supo- 
sición de varianzas iguales. 


TABLA 9.18 Criterios de rechazo para la prueba de hipótesis con respecto a las varianzas de 
dos distribuciones normales independientes 


Hipótesis nula Valor de la estadística de prueba bajo H, 


Hi: o} = o} f=si/s; 
Hipótesis alternativa Criterios de rechazo 
2 > Rechazar FI, cuan E A A 
Hi: or 4 o; o do / fi 2/2, dy, [i 


o cuando f S l/fi-at npt- ny] 
Hi: 0i> 0 Rechazar Ho cuando f > fi-a n -1ni 


Hii o< o} Rechazar H, cuando f S l/f:-...,-1.1,50 
Y y 
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9.8 Inferencias con respecto a las proporciones de dos distribuciones 
binomiales independientes l 


En la sección 8.4.6 se desarrollaron los criterios para la construcción de intervalos de 
confianza para el parámetro de proporción p, cuando se muestrea una distribución 
binomial. En muchas ocasiones, el interés recae en.comparar la proporción de un 
grupo distinto con la de otro, en relación con alguna característica en común. Por 
ejemplo, puede tenerse interés en comparar la proporción de unidades defectuosas 
para un producto dado, que se fabricó por dos compañías que compiten entre sí. O 
puede existir algún interés en comparar las proporciones de estudiantes de prepara- 
toria en dos localidades geográficas diferentes que tienen un número de respuestas 
correctas para la prueba SAT por encima de cierto nivel. De esta forma, es necesario 
entender las ideas presentadas en la sección 8.4.6 para comparar los parámetros de 
proporción cuando se muestrean dos distribuciones binomiales independientes. 
Como ilusiración, en un estudio reciente se compararon las proporciones de per- 
- sonas zurdas y derechas que fuman. La población general se dividió en dos grupos, 
zurdos y derechos, y cada grupo fue subdividido en f''madores y no fumadores. Sea 
pı la proporción de personas zurdas que fuman y p, la proporción de personas dere- 
chas que fuman. El interés recae en hacer una comparación entre p, y p2. 
Supóngase que los zurdos y los derechos constituyen dos distribuciones binomia- 
les independientes tales que la proporción de fumadores en los dos grupos es p, y p2, 
respectivamente. Con base en muestras aleatorias de tamaño n, y n,, sean X y Y el 
número observado de personas zurdas y derechas que fuman, respectivamente. Las 
proporciones muestrales 


P, == X/n;, 
Y/n, 


> 


2 


son los estimadores de máxima verosimilitud de p, y p,, respectivamente. Dado que 
por hipótesis X y Y son variables aleatorias binomiales, las varianzas de los estima- 
dores están dadas por 


Van(P,) = Var(X/n,) =p (1 — pd/n, 
Var(P,) = Var(Y/n,) = pAl — p.)/n,. 
Supóngase que se desea construir un intervalo de confianza muestral grande para 


la diferencia entre p, y p». La estadística de interés es la diferencia entre las dos pro- 
porciones muestrales. Ya que 


EP) =p EÊ) =p», 
entonces, con base en el teorema 6.1 y su corolario dado por la expresión (7.2) 


a ” 


EP, — P,) = pi — P, (9.18) 
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Var(P, - P,) = Var(P,) + Var(P,) 


eL, pl = Pa), (9.19) 


x An; n> 


“Con base en una discusión anterior (véase dl capítulo 5) puede demostrarse que 
en valores grandes de n, y n,, la distribución de la estadística P, — P, es, en forma 
aproximada, normal con media y varianza dadas por (9.18) y (9.19), respectivamen- 
te. En otras palabras, la distribución de 


(Ê, - P,) — (p, — P) 
Pa-P),Pa-P) 


n 


Z= (9.20) 


es aproximadamente N(0,1) n, y n,. Nótese que el denominador en la expresión 
(9.20) proporciona un estimador de la desviación estándar de la estadística Ê, — P,, 
ya que se han reemplazado las proporciones muestrales p, y p,. Por lo tanto, se sigue 
que para n, y n, grandes, la probabilidad del intervalo aleatorio 


(Ê, = P,) == Zi-aj2 d.e(P, = Pa), (P, = P,) + Z1-a/2 s.dP, a PM] 


es aproximadamente 1 — a, y un intervalo de confianza aproximado del 100(1 — 
a)% para Pi — P: €s: 


pi E SA- BN) PAÁL— p) 
AE NÓ JA ¿ 200 (9.21) 


ni n 


en donde $, = x/n, y P, = y/n, son los estimados de máxima verosimilitud de p, 
y p, respectivamente. 


Ejemplo 9.12 En un estudio de los hábitos de fumador para personas zurdas y:de- 
rechas, una muestra aleatoria de 400 zurdos reveló que 190 de éstos fuman, y en una 
muestra aleatoria de 800 derechos, 300 de éstos fuman. Con base en esta evidencia, 
construir un intervalo de confianza del 98% para la diferencia real entre las propor- 
ciones p, y pz. 


Los estimados de las proporciones son 
= 190/400 = 0.475, P, = 300/800 = 0.375. 


Dado que los tamaños de las muestras son grandes, la aproximación normal es ade- 
cuada para este caso. Para un intervalo de confianza del 98% Zos = 2.33 y el inter- 
valo de confianza es 


(0.4751 — 0.475)  (0.375X1 — 0.375) 
(0.475 — 0.375) + 2.33 r 400 + 300 , 
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el cual simplifica al intervalo (0.0295, 0.1705). Dado que este intervalo de confianza 
no incluye al origen y, de hecho, se encuentra a la derecha de éste, puede concluirse 
con un 98% de confiabilidad, que el porcentaje de zurdos que fuman es mayor que 
el correspondiente para las personas derechas. 

Supóngase que el interés recae en probar la hipótesis nula 


i H: pi- p2=0 
contra una de las siguientes alternativas: 

H: pi-p +0,  H:pi-pm>0,,  H,:p,-=p<0. 
Dadas muestras aleatorias de tamaños n, y n,, considérese la estadística Ê, — P,. 
La intuición sugiere que debe rechazarse la hipótesis nula si un valor de la estadística 
es, en forma suficiente, diferente, mayor que, o menor que cero, dependiendo de la hi- 
pótesis alternativa. En forma equivalente, la decisión puede basarse en una prueba 


estadística similar a la dada por (9.20), la cual es aproximadamente N(0, 1) para va- 
lores grandes de n, y nz. 


Dado que bajo H, se supone que las dos proporciones son iguales, sea p = P= Pz 
la proporción común. Entonces, si la hipótesis nula es cierta, la estadística P, - P, 
tiene una distribución, en forma aproximada, normal con media 


EP, - Ê.) =0 
y desviación estándar 


d.e.(P, — P,) = JE + PUP) 
1 


mn 


N l l 
== 1 2s E + =]. 
(va ») (e =) 
Ya que el valor de p no se conoce, se combina la información de las dos muestras 
para obtener el estimador combinado 


X+Y 
ntm 


Ê= 


donde X y Y son las variables aleatorias que se observaron y que poseen la caracte- 
rística de interés. Entonces un estimado de la desviación estándar de P, — P, es 


d.e. (P, — P,) = CEL Z ») (J: + 2) 


en donde $ = (x + y)/(n, + n,) es el estimador combinado de p. Bajo H, la esta- 
dística 


AS 


Ê, - Ê, 


CE (Va, * 


Z= 


a to 
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es aproximadamente N(0, 1) para valores grandes de n, y n. Dependiendo de la hi- 
pótesis alternativa, el lector no debe tener dificultad para decidir cuándo rechazar 
Ho, con base en (9.22) dado un tamaño del error de tipo I. 
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Ejercicios 


9.1. Suponga que usted desea probar la hipótesis 
Hi0 =5 

contra la alternativa 
H:0=8 


por medio de un solo valof que se observa en una variable aleatoria con densidad de 
probabilidad f(x: 0) = (1/0)exp( —x/0), x > 0. Si el tamaño máximo del error de tipo 
T-que puede tolerarse es de 0.15, ¿cuál de las siguientes pruebas es la mejor para escoger 
entre las dos hipótesis? 


a) Rechazar H, si X > 9 
b) Rechazar H, si X => 10 
e) Rechazar H, siX => 11 


9.2. Suponga que usted observa un solo valor de una variable aleatoria cuya función de den- 
sidad está dada por f(x; 0) = 1/8, 0 < x < 8, y desea probar la hipótesis 
Ho: 0 = 20 
contra la alternativa 
H: 0 = I5. 


¿cuál de las dos pruebas a) rechazar H, si X = 8. o b) rechazar H, si X > 8-es la 
mejor para decidir entre las dos hipótesis? 


9.3. Se sabe que la proporción de artículos defectuosos en un proceso de manufactura es de 
0.15. El proceso se vigila en forma periódica tomando muestras aleatorias de tamaño 20 
e inspeccionando las unidades. Si se encuentran dos o más unidades defectuosas en la 
muestra, el proceso se detiene y se considera como “fuera de control”. 


a) Enunciar las hipótesis nula y alternativa apropiadas. 

b) Obtener la probabilidad del error de tipo H. 

c) Obtener y graficar la función de potencia para los siguientes valores alternativos de la 
proporción de artículos defectuosos: 0.06, 0.08, 0.1, 0.15, 0.2, y-0.25. 
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9.4. 


9.5 


. 


9.6. 


9.7. 


9.8. 
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d) Compárense sus respuestas con las partes b y c para el caso en el que se juzga al pro- 
ceso como fuera de control cuando s se encuentran tres o más defectuosas. 


La cantidad promedio que se coloca en un recipiente en un proceso de llenado se supone 
que es de 20 onzas. En forma periódica, se escogen al azar 25 recipientes y el contenido 
de cada uno de éstos se pesa. Se juzga al proceso como fuera de control cuando la media 
muestral X es menor o igual a 19.8 o mayor o igual a 20.2 onzas. Se supone que la canti- 
dad que se vacía en cada recipiente se encuentra aproximada, en forma adecuada, por 
una distribución normal con una desviación estándar de 0.5 onzas. 


a) Enúnciense las hipótesis nula y alternativa que son propias para esta situación. 

b) Obtener la probabilidad del error de tipo 1. 

c) Obtener y graficar la función de potencia para los siguientes valores medios de llena- 
do: 19.5, 19.6, 19.7, 19.8, 19.9, 20.0, 20.1, 20.2, 20.3, 20.4, y 20.5. _ 

d) Como una prueba alternativa, considérese el rechazo de H, cuando X = 19.75 o 
cuando X => 20.25. Si el tamaño máximo del error de tipo 1 es de 0.05, ¿cuál de las 
dos pruebas es la mejor? 


Con referencia al ejercicio 9.4, supóngase que el tamaño de la muestra se aumenta a 36 
recipientes. Dados los mismos tamaños del error de tipo I para las pruebas propuestas, 
obtener los nuevos valores críticos y. comparar las funciones potencia de las dos 
pruebas. i 


Los siguientes datos son los tiempos de sistema observados (tiempo de espera más tiem- 
po de servicio) para 10 clientes en una tienda: 8.7, 2.4, 18.2,10.5, 9.7, 4.8, 11.2, 29.3, 
10.8, 15.6. Supóngase que el tiempo del sistema es una variable aleatoria con una distri- 
bución gama, con parámetro de forma igual a 2 y parámetro de escala 9 desconocido. 
(Sugerencia: véase la expresión (5.51) y el teorema 7.1.) 


a) Pruébese la hipótesis nula 
Ho: 0=5 


contra la alternativa 
H,::0>S, 


con un tamaño máximo del error de tipo I igual a 0.05. 
b) Si el valor real de 9 fuese 7, ¿cuál sería la probabilidad del error de tipo II? 


Sea X,, X2, .... X, una muestra aleatoria de tamaño n de una distribución normal con 
media u desconocida y varianza a? conocida. Obtener la mejor región crítica de tama- 
ño « para probar 


Hy: u = po 
contra 
Hiu = pu, 
en donde Hi < uy. 
Sea Xy. X2. .... X, una muestra aleatoria de tamaño n de una distribución de Poisson 


con parámetro A desconocido. Obtener la mejor región crítica de tamaño a para probar 


Hoi A = An y 


9.9. 


9.10. 


9.11. 


9.12. 


9.13. 
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contra; 
HEN = Ars 
` en donde.\, < Ao- 
El número de accidentes en un crucero muy transitado sigue el modelo exacto de una 


distribución de Poisson con una media de 2.5'accidentes por semana. Un ingeniero de 
tráfico decide reducir la velocidad límite de las dos avenidas que se intersectan en el cru- 
cero. La decisión con respecto a si la reducción en el límite de velocidad disminuye el nú- 
mero de accidentes promedio por semana, se tomará con base en el número total de ac- 
cidentes que se observan durante un periodo de cuatro semanas a partir de la reducción 
en el límite de velocidad. 


a) Enunciar las hipótesis nula y alternativa apropiadas para esta situación. 

b) Para un tamaño máximo del error de tipo I igual a 0.1, obtener el valor crítico de la 
estadística de prueba para el rechazo de la hipótesis nula. (Sugerencia: véanse el 
ejemplo 9.4 y el ejercicio 7.6.) 

c) Si el número de accidentes promedio disminuyó a 2, obtener la probabilidad del error 
de tipo II. ` 


Sea Xy, X2,'..., X, una muestra aleatoria de tamaño n de una distribución exponencial 
con parámetro de escala 8 desconocido. Obtener la mejor región crítica de tamaño «a 
para probar 


Ho: 0 = Oo 
contra 

H: 0 = 9, 
donde 9, > 0). 


Se seleccionaron al azar cuatro unidades de videojuegos y se probaron hasta que ocurre 
la falla de éstos. El tiempo que observaron los que tuvieron las fallas son 148.2, 120.6 
165.5 y 145.7 horas. Supóngase que el lapso de tiempo que transcurre hasta que se pre- 
senta la falla es una variable aleatoria exponencial, empléese el ejemplo 7.4 para probar 
la hipótesis nula de que: el tiempo medio para que una falla ocurra es de 140 contra la al- 
ternativa de que éste es mayor de 140 horas con una probabilidad del error de tipo 1 
igual a 0.01. (Sugerencia: Empléese una técnica iterativa en conjunción con la expresión 
(5.56).) 


Un contratista ordena un gran número de vigas de acero con longitud promedio de $ 
metros. Se sabe que la longitud de una viga se encuentra normalmente distribuida con 
una desviación estándar de 0.02 metros. Después de recibir el embarque, el contratista 
selecciona 16 vigas al azar y mide sus longitudes. Si la media muestral tiene un valor más 
pequeño que el esperado, se tomará la decisión de enviar el embarque al fabricante. 


a) Si la probabilidad de rechazar un embarque bueno es de 0.04, ¿cuál debe ser el valor 
de la media muestral para que el embarque sea regresado al fabricante? 

b) Si la longitud promedio real es de 4.98 metros, ¿cuál es la potencia de la prueba en el 
inciso a? 


En el ejercicio 9.12, ¿cuál es el tamaño necesario de la muestra para que la probabilidad 
de detectar una disminución de 0.015 metros en la longitud media sea de 0.99? 
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9.14, El propietario de una automóvil compacto sospecha que la distancia promedio por 

galón que ofrece su carro es menor que la especificada por la EPA, la cual es de 30 millas 

por galón. El propietario observa la distancia recorrida por galón en nueve ocasiones y 

æ Obtiéne los siguientes datos: 28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1. Des- 

pués de una investigación el propietario concluye que la distancia por galón es una 

variable aleatoria que se distribuye normal con una desviación estándar conocida de 1.4 

millas por galón. Con base en esta información, ¿se encuentra apoyada la sospecha del 
propietario con œ = 0.01? ¿Cuál es el valor p en este caso? 


9.15. Enel ejercicio 9.14, ¿cuántas veces debe observarse la distancia recorrida por galón para 
que con una probabilidad de 0.9 sea detectado un valor tan bajo como 28 mpg? 


9.16. En cierto condado de Iowa, la cosecha promedio de maíz por acre fue de 100 toneladas 
por acre. Para un año dado en el que el clima fue particularmente bueno, se selecciona- 
ron 12 parcelas en forma aleatoria y éstas arrojaron una cosecha promedio de 106 tone- 
ladas por acre, para la misma variedad de maíz. Si la producción por acre se modela en 
forma adecuada por una distribución normal con una desviación estándar de 8 tonela- 
das por acre, ¿existe alguna razón para creer que este año la producción será mejor que 
la producción promedio normal? Empléese « = 0.01. Para este caso, ¿cuál es el valor 


p? 


9.17. Para el ejercicio 9.16, obtener el correspondiente intervalo inferior de confianza del 
99% para el estimador del valor real promedio de la producción por acre, y deducir el 
intervalo de posibles valores para u bajo la hipótesis nula para la que Ho no puede re- 
cházarse con el mismo valor de «. . 


9.18. En una planta de armado se diseña una operación especifica la cual toma un tiempo 
promedio de 5 minutos. El gerente de la planta sospecha que para un operador en parti- 
cular el tiempo promedio es diferente. El gerente toma una muestra de 11 tiempos de 
Operación para este empleado y obtiene los siguientes resultados (en minutos): 4.8, 5.6, 
5.3, 5.2, 4.9, 4.7, 5.7, 4.9, 5.7, 4.9, 4.6. Si se supone que el tiempo de Operación se 
encuentra modelado en forma adecuada por una distribución normal: 


a) ¿Se encuentra la sospecha del gerente apoyada por la evidencia con a = 0.02? ¿cuál 
es el valor de p? 

b) Obtener el correspondiente intervalo de confianza estimado del 99% para el tiempo 
promedio real, y deducir el intervalo de posibles valores de u bajo H, para los que 
no puede rechazarse la hipótesis nula. 


9.19. A veces los productos radioactivos de desecho industrial van a dar a las fuentes de agua 
que se utilizan para el consumo de la población. Por razones como ésta, las agencias es- 
tatales de salud vigilan en forma periódica las fuentes naturales de agua mediante la 
toma y el análisis de muestras de agua. En forma legal se ordena que la cantidad prome- 
dio de radiación en el agua para beber no debe exceder el valor de 4 picocuries por litro 
de agua. Se toma una muestra de 16 especímenes de una fuente natural de abasto de una 
zona densamente poblada, la cual proporciona valores para la media y la desviación es- 
tándar muestral de 4.2 y 1.2 picocuries por litro, respectivamente. Supóngase que la 
cantidad de radiación por litro de agua se encuentra modelada, en forma aproximada, 
por una distribución normal. 


a) ¿Debe usarse un valor, en particular, pequeño para la probabilidad del error de tipo 
I en esta situación? ¿Por qué? 


9.20. 


9.21. 


9.22. 


9.23. 


9.24. 


9.25. 


9.26. 
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b) Selecciónese un valor de alfa y preverse las hipótesis adecuadas. ¿Cuál es el valor 
de p? 
c) ¿Debería preocupar la suposición de normalidad? Coméntese. 


En el ejercicio 9,14, supóngase que la desviación estándar del rendimiento en distancia 
por galón no se conoce. Pruébese la misma hipótesis del ejercicio 9.14 y compárense los 
resultados. ` 


En el ejercicio 9.11, supóngase que se asume un tiempo de falla el cual se encuentra nor- 
malmente distribuido. Pruébese la misma hipótesis del ejercicio 9.11 y compárense los 
resultados. 


Considérese la prueba de Ho: p = po contra H,: p = p; para el parámetro binomial p, 
en donde p, > po. Mediante el empleo del lema de Neyman-Pearson, demuéstrese que 
la mejor región crítica de tamaño « se basa en el número de éxitos observados en los n 
ensayos independientes. 


Un fabricante de lavadoras afirma que sólu el 5% de todas las unidades que vende 
sufren una falla durante el primer año de operación normal. Una organización de con- 
sumidores ha pedido a 20 familias de igual número de miembros que han adquirido 
estas lavadoras, que reporten cualquier mal funcionamiento durante el primer año. Al 
final de éste, sólo tres familias reportaron mal funcionamiento. 


a) Si la organización de consumidores cree que la proporción de lavadoras que sufrirán 
alguna falla es más alta que el valor afirmado por el fabricante, empléese el ejercicio 
9.22 para determinar si puede rechazarse H: p = 0.05 con un tamaño máximo del 
error de tipo 1 de 0.1. 

b) Mediante el empleo de un método aproximado basado en el material de la sección 

8.4.6, pruébese la hipótesis nula y compárense las probabilidades de las estadísticas 
de prueba, asumiendo valores tan extremos o más de los determinados, dado que H, 
es cierta. 


Supóngase que en una muestra aleatoria de 20 bebés concebidos mediante un proceso de 
fertilización in vitro, 15 son mujeres. 


a) Mediante el uso del ejercicio 9.22, determínese qué tan probable es el tener 15 o más 
mujeres, si la verdadera proporción de éstas es de 0.5. 

b) Comparese la probabilidad de la parte a con la que se obtiene mediante el empleo de 
la aproximación normal. 


Una organización de salud se interesa en actualizar su información con respecto a la 
proporción de hombres que fuman. Con base en estudios previos, se cree que la propor- 
ción es del 40%. La organización lleva a cabo una encuesta en la que se seleccionan en for- 
ma aleatoria 1 200 hombres a los cuales se les preguntan sus hábitos de fumador. De los 
1 200, 420 son fumadores. Emplee un método aproximado para determinar si esta evi- 
dencia apoya la noción de que la proporción de hombres que fuman es diferente del 
40% para œ = 0.01. 


El responsable de la campaña política del candidato A piensa en el ambiente de las últi- 

mas semanas previas a las elecciones. Él piensa que su candidato se encuentra en igual 

posición que su oponente, el candidato B, pero han ocurrido algunos reveses en forma 

reciente. El responsable lleva a cabo una encuesta en 1 500 ciudadanos.Si de los 1 500 

720 indicansuna preferencia por el candidato A, ¿existe alguna razón para creer que el can- 

didato A se encuentra en desventaja con relación al candidato B? Empléese æ = 0.05. 
= 0.05, £ 
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9.27. 


9.28. 


9.29. 


9.30. 


9.31. 


9.32. 


un fabricante desea comparar la tensión promedio de su hilo con la de su más cercano 
competidor. Las tensiones de 100 hilos para cada marca se observaron bajo condiciones 
controladas. Las medias y desviaciones estándar de cada marca fueron las siguientes: 


Z, = 110.8 7, = 108.2. 
s= 10.2  s,= 124. 


1 ` a 


ll 


Si se supone que el muestreo se llevó a cabo sobre dos poblaciones normales e indepen- 
dientes, ¿existe alguna razón para creer que hay una diferencia entre las tensiones 
promedio de ruptura de los dos hilos? Úsese « = 0.02. ¿Cuál es el valor de p?. (Suge- 
rencia: la estadística dada por (8.41) en la que los estimados s; y sì reemplazan a las co- 
rrespondientes varianzas poblacionales es aproximadamente N(0, 1) para valores gran- 
des de n, y m). 


En el ejercicio 9.27, obtener las curvas de potencia y característica de operación. 


Obtener una expresión equivalente a (9.14) para probar H,: ux — py = & contra 
Hi: px — By = 0, < Óp. 


Se cree que el promedio verbal para el número de respuestas correctas para la prueba 
SAT para las mujeres es mayor que el de los hombres por más de diez puntos. Las 
muestras aleatorias para ambos sexos arrojaron los siguientes resultados: 


Hombres - Mujeres 
n = 125 n = 100 
x, = 480 X: = 460 
s = 60 S: = 52 


a) Si se muestrearon dos poblaciones independientes normales, ¿se encuentra la creen- 
cia apoyada por la evidencia muestral con « = 0.05? ¿Cuál es el valor de p? 

b) Supóngase que la verdadera diferencia es de 15 puntos. ¿Cuál es la potencia de la 
prueba anterior? 


Mediante el empleo de los datos del ejercicio 8.32, determine si existen diferencias 
estadísticamente discernibles para la tensión de ruptura de los metales producidos por 
los dos procesos con œ = 0.05. ¿Cual es el valor de p? 


A finales de la década de los setenta se descubrió que la sustancia carcionogénica nitro- 
sodimetilamina (NDMA) se formaba durante el secado de la malta verde, la cual se 
empleaba para fabricar cerveza. A principios de los ochenta se desarrolló un nuevo pro- 
ceso para el secado de la malta, el cual minimizaba la formación de NDMA. Se tomaron 
muestras aleatorias de una cerveza doméstica que se fabricó empleando ambos procesos 
de secado, y se tomaron los niveles de NDMA en partes por billón. Se obtuvieron los 
siguientes resultados: 


Proceso anterior t- 6 4 5 $ 6 5 5 6 4 6 7 4 


2 I 2 2 l 0 3 2 l 0 l 3 


Proceso propuesto 


si se supone que se muestrearon dos distribuciones normales independientes con varian- 
zas iguales, ¿existe alguna razón para creer, a un nivel de « = 0.05 que ha disminuido 
la cantidad promedio de NDMA en más de dos partes por billón con el empleo del 
nuevo proceso? 


9.33. 


9.34, 


9.35. 


9.36. 


9.37. 
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Se espera que dos operadores produzcan, en promedio, el mismo número de unidades 
terminadas en el mismo tiempo. Los siguientes datos son los números de unidades ter- 


minadas para ambos trabajadores en una semana de trabajo: 


Operador 1 Operador 2 


12 sE 14 
11 5 18 
18 18 
16 17 
13. 16 


Si se supone que el número de unidades terminadas diariamente por los dos trabajado- 
res son variables aleatorias independientes distribuidas normales con varianzas iguales, 
¿se puede discernir alguna diferencia entre las medias a un nivel « = 0.1? 


En el ejercicio 9.33, dado que los datos son observaciones diarias sobre un periodo de 
una semana, ¿debe usted considerar un enfoque alternativo a este problema? Discuta las 
ventajas de este enfoque y demuestre que se obtienen resultados diferentes a los del ejer- 
cicio 9.33. ¿Por qué se obt:nen resultados diferentes? 


Un investigador médico se interesa en comparar la efectividad de dos dietas muy popu- 
lares, A y B. En particular, el investigador desea determinar si una dieta es más efectiva 
para reducir el peso de las personas obesas en un lapso dado de tiempo. Discuta de ma- 
nera completa el cómo debe el investigador llevar a cabo su experimento. Asegúrese de 
indicar las suposiciones necesarias. 


Un educador ha desarrollado una nueva prueba de aptitud mucho más breve que la que 
se encuentra en uso. El educador desea comparar las dos pruebas. Discuta el enfoque 
que empleará el educador para hacer posible tal comparación. 


Un fabricante desea comparar el proceso de armado común para uno de sus productos 
con un método propuesto que supuestamente reduce el tiempo de armado. Se selec- 
cionaron ocho trabajadores de la planta de armado y se les pidió que armaran las unida- 
des con ambos procesos. Los siguientes son los tiempos observados en minutos. 


Trabajador Proceso actual Proceso propuesto 


l 38 30 
2 32 32 
3 41 34 
4 35 7 
5 42 35 
6 32 26 
7 45 38 
8 37 RRA 


a) En œ = 0.05 ¿existe alguna razón para creer que el tiempo de armado para el proce- 
so actual es mayor que el del método propuesto por más de dos minutos? 

b) ¿Qué suposiciones son necesarias para probar la hipótesis del inciso a, y cuál es el 

¿ valor de p? 

c) Obténgase un intervalo de confianza del 95% para la diferencia entre las medias de 
los tiempos de armado. A 


360 Prueba de hipótesis estadísticas 


9.38. 
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Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la ha- 
bilidad de pensamiento para llevar a cabo determinada tarea. Se seleccionaron al azar 
diez personas de distintas características y se les pidió que participaran en el experimen- 
to. Después de proporcionarles la información pertinente, cada persona llevó a cabo la 
tarea sin nada de alcohol en su organismo. Entonces, la tarea volvió a llevarse a cabo, 
después de que cada persona había consumido una cantidad suficiente de alcohol para 
tener un contenido en su organismo de 0.1%. 


a) Discutir los aspectos importantes de control que el experimentador debe considerar 
al llevar a cabo el experimento. 

b) Supóngase que los tiempos “antes” y ““después”” (en minutos) de los diez participan- 
tes son los siguientes: 


Participante Antes ` Después 


| 28 39 
2 22 45 
3 55 67 
4 45 6l 
5 32 46 
6 35. 58 
7 40 si 
8 25 - 34 
9 37 48 
10 20 30 


¿Puede concluirse a un nivel de a = 0.05 que el tiempo promedio *“antes”” es menor 
que el tiempo promedio ‘‘después” por más de diez minutos? 


En el ejercicio 9,19, ¿existe alguna razón para creer que la varianza en la cantidad de ra- 
diación en la fuente de agua es mayor de 1.25 picocuries cuadrados? Emplee a = 0.05. 


Desarróllense expresiones generales para calcular la probabilidad del error de tipo II 

» z . y Ed . . » 
cuando se prueban las hipótesis Ho: o% = dy contra cualquiera de las dos siguientes 
alternativas H,: 07 > 05 y Hi: 07 < 05. 


Empléense los resultados del ejercicio 9.40 para obtener la potencia de la prueba de la 
hipótesis en el ejercicio 9.39 si a? = 1.4. 


El gerente de una planta sospecha que el número de piezas que produce un trabajador 
en particular por día, fluctúa más allá del valor normal esperado. El gerente decide ob- 
servar el número de piezas que produce este trabajador durante diez días, seleccionados 
éstos al azar. Los resultados son 15, 12. 8, 13, 12, 15, 16, 9, 8, y 14. Si se sabe que la 
desviación estándar para todos los trabajadores es de dos unidades y si el número de és- 
tas que se produce diariamente, se encuentra modelado en forma adecuada por una dis- 
tribución normal, a un nivel de a = 0.05, ¿tiene apoyo la sospecha del gerente? ¿Cuál es 
el valor de p? 


En un proceso de llenado, la tolerancia para el peso de los recipientes es de ocho 
gramos. Para reunir este requisito, la desviación estándar en el peso debe ser de dos gra- 
mos. Los pesos de 25 recipientes seleccionados al azar dieron como resultado una des- 
viación estándar de 2.8 gramos. 


a) Si los pesos se encuentran normalmente distribuidos, determinar si la varianza de 
éstos es diferente del valor necesario. Empléese a = (02. 
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b) ¿Para qué valores de la varianza muestral no puede rechazarse la hipótesis nula del 
inciso a? ¿Se encuentran estos valores equidistantes del valor necesario de la varian- 
za? ¿Cómo deberían ser? Coméntese. 


Considérense los datos del ejercicio 9.32. Para un nivel de œ = 0.05 ¿existe alguna 
razón para pensar que las varianzas no son iguales? 


Un inversionista desea comparar los riesgos asociados con dos diferentes mercados, A y 
B. El riesgo de un mercado dado se mide por la variación en los cambios diarios de pre- 
cios. El inversionista piensa que el riesgo asociado con el mercado B es mayor que el del 
mercado A. Se obtienen muestras aleatorias de 21 cambios de precio diarios para el mer- 
cado A y de 16 para el mercado B. Se obtienen los siguientes resultados: 


Mercado A Mercado B 


Xa = 0.3 Xa = 0.4 
Sa = 0.25 Sa = 0.45 


a) Si se supone que las muestras provienen de dos poblaciones normales e independien- 
tes a un nivel de œ = 0.05 ¿encuentra apoyo la creencia del inversionista? 

b) Si la varianza muestral de A es la dada, ¿cuál es el máximo valor de la varianza 
muestral de B con base en n = 16 que no llevará al rechazo de la hipótesis nula del in- 
ciso a? 


Para el ejercicio 9.33, ¿puede apoyarse la opinión de que la variación en el número de articu- 
los terminados para el operador 2 es menor que para el operador 1 a un nivel a = 0.05? 


En un estudio reciente que abarcó 25 años, se investigó la posible protección que pro- 
porciona la ingestión de una forma de vitamina A llamada caroteno contra el desarrollo 


` del cáncer pulmonar. Se encontró que de 488 hombres que habían ingerido una baja 


9,48. 


9.49. 


9.50. 


cantidad de esta sustancia durante este tiempo, 14 desarrollaron cáncer pulmonar, pero 
en un grupo del mismo tamaño en el que el consumo de caroteno era mayor, sólo dos 
personas desarrollaron cáncer. Bajo las suposiciones apropiadas, ¿puede concluirse que 
la ingestión de caroteno reduce el riesgo de desarrollar cáncer pulmonar en los hombres? 
Empléese œ = 0.01. ¿Cuál es el valor de p? Desde un punto de vista estadístico, ¿qué 
consejo se podría dar al investigador médico que se interesa en un proyecto como éste? 


Para el ejercicio 9.47, determinar un intervalo de confianza estimado del 99% para la 
verdadera diferencia entre las dos proporciones. 


Un economista al servicio de una agencia estatal desea determinar si la frecuencia de de- 
sempleo en dos grandes áreas urbanas del estado son diferentes. Con base en muestras 
aleatorias de cada ciudad, cada una de 500 personas, el economista encuentra 35 perso- 
nas desempleadas en un área y 25 en la otra. Bajo las suposiciones adecuadas y con un 
nivel œ = 0.05 ¿existe alguna razón para creer que las frecuencias de desempleo en las 
dos áreas son diferentes? ¿Cuál es el valor de p? 


Un usuario de grandes cantidades de componentes aléctricos adquiere éstos principal- 
mente de dos proveedores, A y B. Debido a una mejor estructura en precios, el usuario 
hará negocio únicamente con el proveedor B si la proporción de artículos defectuosos 
para A y para B es la misma. De dos grandes lotes, el usuario selecciona al azar 125 uni- 
dades de A y 100 unidades de B; inspecciona las unidades y encuentra siete y siete 
unidades defectuosas, respectivamente. Bajo las suposiciones adecuadas y con base en esta 
información, ¿existe alguna razón para no comprar en forma única las componentes del 
proveedor B? Empléese œ = 0.02. 


